ما الذي نجح، لا ما الذي حدث فقط
الذاكرة تُخبر وولف فيش بما حدث. حلقة التغذية الراجعة تُخبره بما نجح. وحدة basalganglia تُسجِّل نتيجة كل تفاعل — سواء نجحت استدعاءات الأدوات، أو وافقت أو رفضت عمليات مُعلَّمة، وما هي الأساليب التي أنتجت نتائج جيدة. بمرور الوقت، يُبني هذا تفضيلات سلوكية مُتعلَّمة بدون برمجة صريحة.الموقع
أربعة أنواع من النتائج
| النتيجة | المُحفِّز | المعنى |
|---|---|---|
success | استدعاء أداة اكتمل بدون خطأ | هذا الأسلوب نجح |
failure | استدعاء أداة أعاد خطأ أو حالة خطأ | هذا الأسلوب لم ينجح |
approval | المستخدم وافق على استدعاء أداة مُعلَّم (مستوى confirm في amygdala) | المستخدم يثق بهذه العملية |
denial | المستخدم رفض استدعاء أداة مُعلَّم | المستخدم لا يريد هذا |
كيف تُسجَّل التغذية الراجعة
بعد كل دورة محادثة، تُلحقbasalganglia.recordOutcome() إدخالاً:
- الطابع الزمني — متى حدث
- النتيجة — نجاح، إخفاق، موافقة، أو رفض
- اسم الأداة — أي قدرة تم استدعاؤها
- المعاملات المقتطعة — ما تم تمريره (بحد أقصى ~200 حرف للقراءة)
- السياق — وصف مختصر للمحادثة المحيطة
أمثلة على إدخالات التغذية الراجعة
كيف تؤثر التغذية الراجعة على السلوك
وحدة prefrontal تقرأ إدخالات التغذية الراجعة أثناء تجميع السياق. يرى LLM أنماطاً فيما نجح وما لم ينجح، ويُعدِّل أسلوبه وفقاً لذلك.الواجهة
يُتيح basalganglia طريقتين لوحدة prefrontal:ما يتعلمه LLM
بمرور الوقت، تظهر أنماط من التغذية الراجعة المتراكمة:تفضيلات أسلوب الالتزام
تفضيلات أسلوب الالتزام
بعد عدة نتائج
success على التزامات بتنسيق conventional (feat:، fix:، chore:)، يتعلم LLM استخدام هذا التنسيق دائماً. إذا تم denial لالتزام غير conventional، فهذا يُعزز التفضيل.العمليات الآمنة
العمليات الآمنة
إذا وافق المستخدم باستمرار (
approves) على دفع git إلى فروع الميزات، يتعلم وولف فيش أن هذه عمليات منخفضة المخاطر. إذا رفض المستخدم باستمرار (denies) الدفع القسري، يتعلم تجنب اقتراحها — أو تعليمها بشكل أبرز.التعافي من الأخطاء
التعافي من الأخطاء
بعد
failure من أسلوب معين (مثلاً: البحث في موقع داخلي غير مُفهرَس)، يتعلم LLM تجربة أساليب بديلة في المرة القادمة (مثلاً: سؤال المستخدم عن الرابط مباشرة).تفضيلات الأدوات
تفضيلات الأدوات
إذا نجحت أوامر
pnpm دائماً لكن تم رفض أوامر npm مرة، يتعلم LLM تفضيل مدير الحزم الخاص بك من النتائج — وليس فقط من preferences.md.ينمو معك
هذه هي الآلية التي تجعل وولف فيش تكيفياً بمرور الوقت. إنه لا يتذكر الحقائق فقط (هذا ما تفعله ملفات المعرفة) — بل يتذكر ما نجح عملياً. هذا المزيج يُنشئ وكيلاً:- يعرف تفضيلاتك (المعرفة) — ما قلت أنك تريده
- يعرف ما ينجح فعلاً (التغذية الراجعة) — ما أنتج نتائج جيدة
- يتجنب الأخطاء السابقة (سجلات الإخفاق) — ما لم ينجح سابقاً
فحص وتعديل التغذية الراجعة
ملف التغذية الراجعة هو Markdown عادي. يمكنك:- قراءته لفهم لماذا يتصرف وولف فيش بطريقة معينة
- حذف إدخالات لـ “إلغاء تعلُّم” نمط (مثلاً: حذف رفضات قديمة لم تعد سارية)
- إضافة إدخالات لتغذية السلوك (مثلاً: إضافة رفض لـ
rm -rf /حتى لو لم يحدث أبداً)
التغذية الراجعة مقابل المعرفة
| الجانب | ملفات المعرفة | حلقة التغذية الراجعة |
|---|---|---|
| تُخزِّن | حقائق وتفضيلات | نتائج وأنماط |
| تُكتب بواسطة | ترقية LLM + كتابة مباشرة | تلقائياً بعد كل دورة محادثة |
| تُجيب على | ”ماذا يريد المستخدم؟" | "ما الذي ينجح فعلاً؟“ |
| مثال | ”المستخدم يفضل pnpm" | "pnpm install نجح 47 مرة، npm رُفض مرة واحدة” |
| التعديل | شائع ومُشجَّع | نادر، غالباً للتصحيحات |