تحليل الصور والرؤية

يدعم Triggerfish إدخال الصور عبر جميع الواجهات. يمكنك لصق الصور من حافظتك في CLI أو المتصفح، ويمكن للوكيل تحليل ملفات الصور على القرص. عندما لا يدعم نموذجك الرئيسي الرؤية، يمكن لنموذج رؤية منفصل وصف الصور تلقائياً.

إدخال الصور

CLI: لصق الحافظة (Ctrl+V)

اضغط Ctrl+V في محادثة CLI للصق صورة من حافظة نظامك. تُقرأ الصورة وتُرمز بـ base64 وتُرسل للوكيل ككتلة محتوى متعددة الوسائط.

Tidepool: لصق المتصفح

في واجهة Tidepool، الصق الصور مباشرةً في إدخال المحادثة.

أداة `image_analyze`

يمكن للوكيل تحليل ملفات الصور على القرص باستخدام أداة image_analyze.

المعامل	النوع	مطلوب	الوصف
`path`	string	نعم	المسار المطلق لملف الصورة
`prompt`	string	لا	سؤال أو prompt عن الصورة

الصيغ المدعومة: PNG, JPEG, GIF, WebP, BMP, SVG

نموذج الرؤية البديل

عندما لا يدعم نموذجك الرئيسي الرؤية، يمكنك تكوين نموذج رؤية منفصل:

yaml

models:
  vision: gemini-2.0-flash

كيف يعمل

تلصق صورة أو ترسل محتوى متعدد الوسائط
المنسق يكتشف كتل محتوى الصورة
نموذج الرؤية يصف كل صورة
كتل الصور تُستبدل بأوصاف نصية
النموذج الرئيسي يعالج الرسالة مع الأوصاف النصية

تحليل الصور والرؤية ​

إدخال الصور ​

CLI: لصق الحافظة (Ctrl+V) ​

Tidepool: لصق المتصفح ​

أداة image_analyze ​

نموذج الرؤية البديل ​

كيف يعمل ​