تكامل Ollama

يتمتع وولف فيش بتكامل كامل من الدرجة الأولى مع Ollama — بيئة تشغيل نماذج محلية مفتوحة المصدر تتيح لك تشغيل نماذج اللغة الكبيرة بالكامل على جهازك. لا مفاتيح API، لا اعتماد سحابي، لا بيانات تغادر جهازك.

لماذا Ollama؟

الهدف العميق لـ وولف فيش هو العمل بالكامل محليًا دون أي تعرّض للإنترنت. كل جزء من البيانات — الذاكرة، المحادثات، المهارات، سجلات المهام — يعيش بالفعل على جهازك. المكوّن الوحيد الذي يتطلب تقليديًا السحابة هو نموذج اللغة نفسه. Ollama يسدّ تلك الفجوة. للمستخدمين المتقدمين ذوي الأجهزة القوية، هذا يعني:

خصوصية تامة — طلباتك وردودك ومخرجات أدواتك لا تغادر جهازك أبدًا
تكلفة صفرية — لا فواتير API، لا حساب رموز، لا حدود استخدام
قدرة دون اتصال — سير عمل وكيل كامل على طائرة، أو خلف شبكة معزولة
لا تبعية لمزوّد — وكيلك يعمل بغض النظر عن انقطاع الخدمات أو تغيّر الأسعار

هذه هي الرؤية: وكيل ذكاء اصطناعي شخصي مستقل تمامًا يعمل كعملية محلية على جهازك، لا يخضع لأحد سواك.

كيف يعمل

يتواصل وولف فيش مع Ollama عبر واجهة HTTP المحلية:

POST http://localhost:11434/api/chat

عند تثبيت Ollama وسحب نموذج، يمكن لـ وولف فيش:

اكتشاف Ollama تلقائيًا عند التشغيل الأول (أو لاحقًا في الإعدادات)
استعراض النماذج المتوفرة على جهازك
سحب نماذج جديدة مباشرة من واجهة وولف فيش — لا حاجة للطرفية
بث الردود باستخدام NDJSON
استدعاء الأدوات عبر JSON مهيكَل في رد النموذج

إعداد Ollama

تثبيت Ollama

حمّله من ollama.com وثبّته. على macOS ملف .dmg واحد، على Linux أمر curl بسطر واحد، على Windows مثبّت عادي.

سحب نموذج

إما عبر الطرفية (ollama pull qwen3:14b) أو دع وولف فيش يسحبه لك من الإعدادات ← النماذج ← Ollama.

الاختيار في وولف فيش

افتح الإعدادات ← النماذج، اختر تبويب Ollama، واختر نموذجك. هذا كل شيء — أنت تعمل محليًا.

Ollama اختياري. يمكنك تخطيه تمامًا أثناء الإعداد الأولي واستخدام مزودي السحابة فقط (Claude أو OpenAI). سيطلب منك وولف فيش ضبط مزوّد واحد على الأقل قبل بدء المحادثة.

متطلبات النماذج للمهام الوكيلية

ليست كل النماذج المحلية متساوية. قدرات وولف فيش الوكيلية — استدعاء الأدوات، الاستدلال متعدد الخطوات، تنفيذ الأكواد، التعامل مع الملفات — تضع متطلبات محددة على النموذج:

عتبة المعاملات

حجم النموذج	محادثة	أدوات بسيطة	وكيل متعدد الخطوات	تنفيذ مستقل موثوق
1B–3B	دردشة أساسية فقط	غير موثوق	لا	لا
7B–8B	جيد	غير متسق	يكافح	لا
14B	جيد	موثوق غالبًا	سلاسل أساسية	هش
32B–35B	ممتاز	موثوق	يتعامل جيدًا	أحيانًا
70B+	ممتاز	موثوق	موثوق	نعم

الحد الأدنى لاستدعاء أدوات وكيلي موثوق هو ~14B معامل، لكن حتى حينها، سير العمل المعقد متعدد الخطوات (بحث ← كتابة ← تنسيق ← نشر) سيصطدم بأنماط فشل. للتنفيذ المستقل حقًا — حيث يسلسل الوكيل 10+ استدعاءات أدوات دون تدخل بشري — تحتاج 32B+ معامل كحد أدنى، و70B+ لموثوقية على مستوى الإنتاج.

لماذا تفشل النماذج الصغيرة في المهام الوكيلية

استدعاء الأدوات يتطلب من النموذج:

فهم التعليمة — تحليل ما يريد المستخدم إنجازه
تخطيط التسلسل — تحديد أي أدوات يستدعي، وبأي ترتيب
تنسيق استدعاءات الأدوات بشكل صحيح — إخراج JSON صالح بأسماء وأنواع معاملات صحيحة
تفسير نتائج الأدوات — قراءة المخرجات وتحديد الإجراء التالي
الحفاظ على السياق عبر الأدوار — تذكر ما أنجزه بالفعل عبر سلسلة متعددة الخطوات
التعامل مع الأخطاء بأناقة — إعادة المحاولة، التعديل، أو طلب المساعدة عند فشل أداة

النماذج الصغيرة (7B وأقل) تفشل عادةً في الخطوات 3–6. تهلوس أسماء المعاملات، تفقد مسار الخطط متعددة الخطوات، تخرج JSON مشوّه يكسر أنبوب استدعاء الأدوات، ولا تستطيع التعافي من الأخطاء.

النماذج الموصى بها حسب العتاد

الذاكرة	النموذج	المعاملات	موثوقية وكيلية
8GB	Qwen 3 8B, Gemma 3 4B	4B–8B	محادثة فقط
16GB	Qwen 3 14B, Gemma 3 12B	12B–14B	استدعاءات أدوات بسيطة
32GB	Qwen 3 32B, QwQ 32B	32B	سير عمل متعدد الخطوات
48GB+	Llama 3 70B, Qwen 2.5 72B	70B+	وكيل مستقل كامل
64GB+ / GPU	DeepSeek-V2, Llama 3.1 405B (مكمّم)	70B+	مستوى إنتاجي

التكميم مهم. نموذج 70B مكمّم بـ Q4_0 يتسع في ذاكرة أقل لكنه يفقد قدرة. للمهام الوكيلية، فضّل Q5_K_M أو مستويات تكميم أعلى — الدقة تؤثر مباشرة على موثوقية استدعاء الأدوات.

الحقيقة الصريحة

إن كان لديك حاسب محمول عادي بذاكرة 8–16GB، ستتعامل النماذج المحلية مع المحادثات والتلخيص والأسئلة البسيطة جيدًا. لكن لنوع سير العمل المستقل متعدد الخطوات الذي يتفوق فيه وولف فيش — البحث في المواضيع، كتابة التقارير، إدارة الملفات، تنفيذ أوامر shell بالتسلسل — ستحصل على نتائج أفضل بشكل كبير مع مزوّد سحابي مثل Claude أو GPT-4. النقطة المثالية للاستخدام الوكيلي المحلي فقط:

Mac Studio / Mac Pro بذاكرة موحّدة 64GB+ — تشغيل نماذج 70B بسرعة مقبولة
حاسب مكتبي ببطاقة GPU بذاكرة 24GB+ — استدلال 70B بالسرعة الكاملة عبر CUDA
محطة عمل متقدمة بذاكرة 128GB — تشغيل نماذج مكمّمة 100B+

لبقية المستخدمين، نوصي بـ: مزودي السحابة للمهام الوكيلية المعقدة، Ollama للمحادثات الحساسة من ناحية الخصوصية والاحتياط دون اتصال.

أوضاع الاستدلال

تتحكّم أيقونة الدماغ بجوار صندوق الرسائل في ما إذا كان النموذج يستدل. اضغط عليها لتفعيل الاستدلال أو إيقافه للنماذج التي تدعمه.

التفكير — هل يفكّر النموذج

إيقاف — يجيب النموذج فورًا. الأسرع؛ مثاليّ للمهام البسيطة والمباشرة.
تشغيل — يعالج النموذج المسألة أولًا في مرحلة استدلال مخصّصة قبل الردّ. أبطأ ويستهلك رموزًا أكثر، لكنه أدقّ بوضوح في المهام متعدّدة الخطوات أو المنطقية أو الغامضة.

حالات الزر

الحالة	اللون	المعنى
إيقاف	رمادي	التفكير متوقّف — إجابة مباشرة
تشغيل	أزرق	التفكير مُفعّل

يعرض كل نموذج الحالات التي يدعمها فعليًا فقط. إذا كان النموذج لا يستطيع الاستدلال، فإن الزر يُقفَل حيث لا يوجد ما يتغيّر. يحفظ Wolffish اختيارك لكل نموذج. في Ollama: يُكتشف الاستدلال لكل نموذج مسحوب من قدرات Ollama — تفكّر النماذج التي تعلن قدرة التفكير (مثل qwen3 وdeepseek-r1 وgpt-oss)، وغيرها لا يفكّر. إنه تشغيل/إيقاف بسيط دون مستويات جهد، ودون مفتاح API أو تكلفة لأنه يعمل محليًا.

الوضع المحلي فقط

يتضمن وولف فيش مفتاح “محلي فقط” يقيّد كل الاستدلال بـ Ollama — لا بيانات تلمس API سحابي أبدًا، بغض النظر عن نموذج الدماغ المُختار. فعّله من الشريط الجانبي للمحادثة عند حاجتك لخصوصية مطلقة. في الوضع المحلي فقط:

فرض النموذج المحلي — يُستخدم Ollama فقط أيًا كان نموذج الدماغ المُختار
لا طلبات شبكة لاستدلال نموذج اللغة
تجميع الذاكرة يستخدم النموذج المحلي
جميع الميزات الأخرى (ذاكرة، أدوات، قدرات) تعمل بشكل طبيعي

القيود

السرعة — الاستدلال المحلي أبطأ من APIs السحابة، خاصة على أجهزة CPU فقط. توقع 5–30 رمز/ثانية حسب حجم النموذج والعتاد، مقابل 80–150 رمز/ثانية من المزودين السحابيين.
نافذة السياق — معظم النماذج المحلية تدعم 4K–32K سياق. النماذج السحابية تقدم 128K–200K. المحادثات الطويلة قد تتجاوز حدود النموذج المحلي.
تنسيق استدعاء الأدوات — النماذج الأصغر تخرج أحيانًا استدعاءات أدوات مشوّهة. لدى وولف فيش منطق إعادة محاولة، لكن الفشل المتكرر ينهي الدور.
لا computer-use — التفاعل مع الشاشة يتطلب قدرات رؤية تفتقر إليها معظم النماذج المحلية. هذه القدرة تتطلب حاليًا Claude.

الرؤية

بنينا تكامل Ollama لأننا نؤمن أن مستقبل الذكاء الاصطناعي الشخصي محلي. اليوم، أفضل النماذج مستضافة سحابيًا. لكن أحجام النماذج تتقلص بينما القدرات تنمو. الفجوة بين نموذج محلي 70B ونموذج سحابي حدودي تضيق مع كل إصدار. وولف فيش مبني لذلك المستقبل — حيث جهاز واحد يشغّل وكيل ذكاء اصطناعي كامل القدرات بلا اتصال إنترنت، بلا اشتراك، بلا بيانات تخرج عن سيطرتك. كل قرار معماري (نموذج عديم الحالة، أولوية الـ markdown، ذاكرة محلية) مصمم ليوم يستطيع فيه نموذج 14B تنفيذ سلاسل وكيلية من 20 أداة بموثوقية. لن يحتاج وولف فيش أي تغيير في الكود — فقط بدّل النموذج. حتى ذلك الحين، استخدم المزودين السحابيين للمهام الثقيلة وOllama لما يتقنه: استدلال محلي خاص، دون اتصال، ومتوفر دائمًا.

​تكامل Ollama

​لماذا Ollama؟

​كيف يعمل

​إعداد Ollama

​متطلبات النماذج للمهام الوكيلية

​عتبة المعاملات

​لماذا تفشل النماذج الصغيرة في المهام الوكيلية

​النماذج الموصى بها حسب العتاد

​الحقيقة الصريحة

​أوضاع الاستدلال

​التفكير — هل يفكّر النموذج

​حالات الزر

​الوضع المحلي فقط

​القيود

​الرؤية

تكامل Ollama

لماذا Ollama؟

كيف يعمل

إعداد Ollama

متطلبات النماذج للمهام الوكيلية

عتبة المعاملات

لماذا تفشل النماذج الصغيرة في المهام الوكيلية

النماذج الموصى بها حسب العتاد

الحقيقة الصريحة

أوضاع الاستدلال

التفكير — هل يفكّر النموذج

حالات الزر

الوضع المحلي فقط

القيود

الرؤية