تحليل الصور والرؤية
يدعم Triggerfish إدخال الصور عبر جميع الواجهات. يمكنك لصق الصور من حافظتك في CLI أو المتصفح، ويمكن للوكيل تحليل ملفات الصور على القرص. عندما لا يدعم نموذجك الرئيسي الرؤية، يمكن لنموذج رؤية منفصل وصف الصور تلقائياً.
إدخال الصور
CLI: لصق الحافظة (Ctrl+V)
اضغط Ctrl+V في محادثة CLI للصق صورة من حافظة نظامك. تُقرأ الصورة وتُرمز بـ base64 وتُرسل للوكيل ككتلة محتوى متعددة الوسائط.
Tidepool: لصق المتصفح
في واجهة Tidepool، الصق الصور مباشرةً في إدخال المحادثة.
أداة image_analyze
يمكن للوكيل تحليل ملفات الصور على القرص باستخدام أداة image_analyze.
| المعامل | النوع | مطلوب | الوصف |
|---|---|---|---|
path | string | نعم | المسار المطلق لملف الصورة |
prompt | string | لا | سؤال أو prompt عن الصورة |
الصيغ المدعومة: PNG, JPEG, GIF, WebP, BMP, SVG
نموذج الرؤية البديل
عندما لا يدعم نموذجك الرئيسي الرؤية، يمكنك تكوين نموذج رؤية منفصل:
yaml
models:
vision: gemini-2.0-flashكيف يعمل
- تلصق صورة أو ترسل محتوى متعدد الوسائط
- المنسق يكتشف كتل محتوى الصورة
- نموذج الرؤية يصف كل صورة
- كتل الصور تُستبدل بأوصاف نصية
- النموذج الرئيسي يعالج الرسالة مع الأوصاف النصية
