تكامل Ollama
يتمتع وولف فيش بتكامل كامل من الدرجة الأولى مع Ollama — بيئة تشغيل نماذج محلية مفتوحة المصدر تتيح لك تشغيل نماذج اللغة الكبيرة بالكامل على جهازك. لا مفاتيح API، لا اعتماد سحابي، لا بيانات تغادر جهازك.لماذا Ollama؟
الهدف العميق لـ وولف فيش هو العمل بالكامل محليًا دون أي تعرّض للإنترنت. كل جزء من البيانات — الذاكرة، المحادثات، المهارات، سجلات المهام — يعيش بالفعل على جهازك. المكوّن الوحيد الذي يتطلب تقليديًا السحابة هو نموذج اللغة نفسه. Ollama يسدّ تلك الفجوة. للمستخدمين المتقدمين ذوي الأجهزة القوية، هذا يعني:- خصوصية تامة — طلباتك وردودك ومخرجات أدواتك لا تغادر جهازك أبدًا
- تكلفة صفرية — لا فواتير API، لا حساب رموز، لا حدود استخدام
- قدرة دون اتصال — سير عمل وكيل كامل على طائرة، أو خلف شبكة معزولة
- لا تبعية لمزوّد — وكيلك يعمل بغض النظر عن انقطاع الخدمات أو تغيّر الأسعار
كيف يعمل
يتواصل وولف فيش مع Ollama عبر واجهة HTTP المحلية:- اكتشاف Ollama تلقائيًا عند التشغيل الأول (أو لاحقًا في الإعدادات)
- استعراض النماذج المتوفرة على جهازك
- سحب نماذج جديدة مباشرة من واجهة وولف فيش — لا حاجة للطرفية
- بث الردود باستخدام NDJSON
- استدعاء الأدوات عبر JSON مهيكَل في رد النموذج
إعداد Ollama
تثبيت Ollama
حمّله من ollama.com وثبّته. على macOS ملف
.dmg واحد، على Linux أمر curl بسطر واحد، على Windows مثبّت عادي.سحب نموذج
إما عبر الطرفية (
ollama pull qwen3:14b) أو دع وولف فيش يسحبه لك من الإعدادات ← النماذج ← Ollama.Ollama اختياري. يمكنك تخطيه تمامًا أثناء الإعداد الأولي واستخدام مزودي السحابة فقط (Claude أو OpenAI). سيطلب منك وولف فيش ضبط مزوّد واحد على الأقل قبل بدء المحادثة.
متطلبات النماذج للمهام الوكيلية
ليست كل النماذج المحلية متساوية. قدرات وولف فيش الوكيلية — استدعاء الأدوات، الاستدلال متعدد الخطوات، تنفيذ الأكواد، التعامل مع الملفات — تضع متطلبات محددة على النموذج:عتبة المعاملات
| حجم النموذج | محادثة | أدوات بسيطة | وكيل متعدد الخطوات | تنفيذ مستقل موثوق |
|---|---|---|---|---|
| 1B–3B | دردشة أساسية فقط | غير موثوق | لا | لا |
| 7B–8B | جيد | غير متسق | يكافح | لا |
| 14B | جيد | موثوق غالبًا | سلاسل أساسية | هش |
| 32B–35B | ممتاز | موثوق | يتعامل جيدًا | أحيانًا |
| 70B+ | ممتاز | موثوق | موثوق | نعم |
لماذا تفشل النماذج الصغيرة في المهام الوكيلية
استدعاء الأدوات يتطلب من النموذج:- فهم التعليمة — تحليل ما يريد المستخدم إنجازه
- تخطيط التسلسل — تحديد أي أدوات يستدعي، وبأي ترتيب
- تنسيق استدعاءات الأدوات بشكل صحيح — إخراج JSON صالح بأسماء وأنواع معاملات صحيحة
- تفسير نتائج الأدوات — قراءة المخرجات وتحديد الإجراء التالي
- الحفاظ على السياق عبر الأدوار — تذكر ما أنجزه بالفعل عبر سلسلة متعددة الخطوات
- التعامل مع الأخطاء بأناقة — إعادة المحاولة، التعديل، أو طلب المساعدة عند فشل أداة
النماذج الموصى بها حسب العتاد
| الذاكرة | النموذج | المعاملات | موثوقية وكيلية |
|---|---|---|---|
| 8GB | Qwen 3 8B, Gemma 3 4B | 4B–8B | محادثة فقط |
| 16GB | Qwen 3 14B, Gemma 3 12B | 12B–14B | استدعاءات أدوات بسيطة |
| 32GB | Qwen 3 32B, QwQ 32B | 32B | سير عمل متعدد الخطوات |
| 48GB+ | Llama 3 70B, Qwen 2.5 72B | 70B+ | وكيل مستقل كامل |
| 64GB+ / GPU | DeepSeek-V2, Llama 3.1 405B (مكمّم) | 70B+ | مستوى إنتاجي |
الحقيقة الصريحة
إن كان لديك حاسب محمول عادي بذاكرة 8–16GB، ستتعامل النماذج المحلية مع المحادثات والتلخيص والأسئلة البسيطة جيدًا. لكن لنوع سير العمل المستقل متعدد الخطوات الذي يتفوق فيه وولف فيش — البحث في المواضيع، كتابة التقارير، إدارة الملفات، تنفيذ أوامر shell بالتسلسل — ستحصل على نتائج أفضل بشكل كبير مع مزوّد سحابي مثل Claude أو GPT-4. النقطة المثالية للاستخدام الوكيلي المحلي فقط:- Mac Studio / Mac Pro بذاكرة موحّدة 64GB+ — تشغيل نماذج 70B بسرعة مقبولة
- حاسب مكتبي ببطاقة GPU بذاكرة 24GB+ — استدلال 70B بالسرعة الكاملة عبر CUDA
- محطة عمل متقدمة بذاكرة 128GB — تشغيل نماذج مكمّمة 100B+
أوضاع الاستدلال
تتحكّم أيقونة الدماغ بجوار صندوق الرسائل في ما إذا كان النموذج يستدل. اضغط عليها لتفعيل الاستدلال أو إيقافه للنماذج التي تدعمه.التفكير — هل يفكّر النموذج
- إيقاف — يجيب النموذج فورًا. الأسرع؛ مثاليّ للمهام البسيطة والمباشرة.
- تشغيل — يعالج النموذج المسألة أولًا في مرحلة استدلال مخصّصة قبل الردّ. أبطأ ويستهلك رموزًا أكثر، لكنه أدقّ بوضوح في المهام متعدّدة الخطوات أو المنطقية أو الغامضة.
حالات الزر
| الحالة | اللون | المعنى |
|---|---|---|
| إيقاف | رمادي | التفكير متوقّف — إجابة مباشرة |
| تشغيل | أزرق | التفكير مُفعّل |
الوضع المحلي فقط
يتضمن وولف فيش مفتاح “محلي فقط” يقيّد كل الاستدلال بـ Ollama — لا بيانات تلمس API سحابي أبدًا، بغض النظر عن نموذج الدماغ المُختار. فعّله من الشريط الجانبي للمحادثة عند حاجتك لخصوصية مطلقة. في الوضع المحلي فقط:- فرض النموذج المحلي — يُستخدم Ollama فقط أيًا كان نموذج الدماغ المُختار
- لا طلبات شبكة لاستدلال نموذج اللغة
- تجميع الذاكرة يستخدم النموذج المحلي
- جميع الميزات الأخرى (ذاكرة، أدوات، قدرات) تعمل بشكل طبيعي
القيود
- السرعة — الاستدلال المحلي أبطأ من APIs السحابة، خاصة على أجهزة CPU فقط. توقع 5–30 رمز/ثانية حسب حجم النموذج والعتاد، مقابل 80–150 رمز/ثانية من المزودين السحابيين.
- نافذة السياق — معظم النماذج المحلية تدعم 4K–32K سياق. النماذج السحابية تقدم 128K–200K. المحادثات الطويلة قد تتجاوز حدود النموذج المحلي.
- تنسيق استدعاء الأدوات — النماذج الأصغر تخرج أحيانًا استدعاءات أدوات مشوّهة. لدى وولف فيش منطق إعادة محاولة، لكن الفشل المتكرر ينهي الدور.
- لا computer-use — التفاعل مع الشاشة يتطلب قدرات رؤية تفتقر إليها معظم النماذج المحلية. هذه القدرة تتطلب حاليًا Claude.