Skip to content

تحليل الصور والرؤية

يدعم Triggerfish إدخال الصور عبر جميع الواجهات. يمكنك لصق الصور من حافظتك في CLI أو المتصفح، ويمكن للوكيل تحليل ملفات الصور على القرص. عندما لا يدعم نموذجك الرئيسي الرؤية، يمكن لنموذج رؤية منفصل وصف الصور تلقائياً.

إدخال الصور

CLI: لصق الحافظة (Ctrl+V)

اضغط Ctrl+V في محادثة CLI للصق صورة من حافظة نظامك. تُقرأ الصورة وتُرمز بـ base64 وتُرسل للوكيل ككتلة محتوى متعددة الوسائط.

Tidepool: لصق المتصفح

في واجهة Tidepool، الصق الصور مباشرةً في إدخال المحادثة.

أداة image_analyze

يمكن للوكيل تحليل ملفات الصور على القرص باستخدام أداة image_analyze.

المعاملالنوعمطلوبالوصف
pathstringنعمالمسار المطلق لملف الصورة
promptstringلاسؤال أو prompt عن الصورة

الصيغ المدعومة: PNG, JPEG, GIF, WebP, BMP, SVG

نموذج الرؤية البديل

عندما لا يدعم نموذجك الرئيسي الرؤية، يمكنك تكوين نموذج رؤية منفصل:

yaml
models:
  vision: gemini-2.0-flash

كيف يعمل

  1. تلصق صورة أو ترسل محتوى متعدد الوسائط
  2. المنسق يكتشف كتل محتوى الصورة
  3. نموذج الرؤية يصف كل صورة
  4. كتل الصور تُستبدل بأوصاف نصية
  5. النموذج الرئيسي يعالج الرسالة مع الأوصاف النصية