ניתוח תמונות וראייה

Triggerfish תומך בקלט תמונות בכל הממשקים. ניתן להדביק תמונות מהלוח שלכם ב-CLI או בדפדפן, והסוכן יכול לנתח קובצי תמונה בדיסק. כאשר המודל הראשי שלכם אינו תומך בראייה, מודל ראייה נפרד יכול לתאר תמונות אוטומטית לפני שהן מגיעות למודל הראשי.

קלט תמונות

CLI: הדבקה מלוח (Ctrl+V)

לחצו Ctrl+V בצ'אט ה-CLI כדי להדביק תמונה מלוח המערכת שלכם. התמונה נקראת מלוח ה-OS, מקודדת ב-base64 ונשלחת לסוכן כבלוק תוכן מרובה-מדיות לצד הודעת הטקסט שלכם.

קריאת לוח תומכת ב:

Linux -- xclip או xsel
macOS -- pbpaste / osascript
Windows -- גישת לוח PowerShell

Tidepool: הדבקה בדפדפן

בממשק הרשת של Tidepool, הדביקו תמונות ישירות לקלט הצ'אט באמצעות פונקציונליות ההדבקה המקורית של הדפדפן שלכם (Ctrl+V / Cmd+V). התמונה נקראת ככתובת URL של נתונים ונשלחת כבלוק תוכן מקודד ב-base64.

כלי `image_analyze`

הסוכן יכול לנתח קובצי תמונה בדיסק באמצעות כלי image_analyze.

פרמטר	סוג	נדרש	תיאור
`path`	string	כן	נתיב מוחלט לקובץ התמונה
`prompt`	string	לא	שאלה או prompt לגבי התמונה (ברירת מחדל: "Describe this image in detail")

פורמטים נתמכים: PNG, JPEG, GIF, WebP, BMP, SVG

הכלי קורא את הקובץ, מקודד אותו ב-base64 ושולח אותו לספק LLM בעל יכולת ראייה לניתוח.

חלופת מודל ראייה

כאשר המודל הראשי שלכם אינו תומך בראייה (למשל, Z.AI glm-5), ניתן להגדיר מודל ראייה נפרד לתיאור אוטומטי של תמונות לפני שהן מגיעות למודל הראשי.

כיצד זה עובד

אתם מדביקים תמונה (Ctrl+V) או שולחים תוכן מרובה-מדיות
האורקסטרטור מזהה בלוקי תוכן תמונה בהודעה
מודל הראייה מתאר כל תמונה (אתם רואים ספינר "מנתח תמונה...")
בלוקי תמונה מוחלפים בתיאורי טקסט: [The user shared an image. A vision model described it as follows: ...]
המודל הראשי מקבל הודעת טקסט בלבד עם התיאורים
רמז system prompt אומר למודל הראשי להתייחס לתיאורים כאילו הוא רואה את התמונות

זה שקוף לחלוטין -- אתם מדביקים תמונה ומקבלים תגובה, ללא קשר לשאלה האם המודל הראשי תומך בראייה.

תצורה

הוסיפו שדה vision לתצורת המודלים שלכם:

yaml

models:
  primary:
    provider: zai
    model: glm-5 # מודל ראשי ללא ראייה
  vision: glm-4.5v # מודל ראייה לתיאור תמונות
  providers:
    zai:
      model: glm-5

מודל ה-vision משתמש באישורים מרשומת ה-keychain של הספק הראשי. בדוגמה זו, הספק הראשי הוא zai, אז glm-4.5v משתמש באותו מפתח API שמאוחסן ב-OS keychain עבור ספק zai.

מפתח	סוג	תיאור
`models.vision`	string	שם מודל ראייה אופציונלי לתיאור תמונות אוטומטי

מתי חלופת ראייה מופעלת

רק כאשר models.vision מוגדר
רק כאשר ההודעה מכילה בלוקי תוכן תמונה
הודעות טקסט בלבד ובלוקי תוכן טקסט מדלגים על החלופה לחלוטין
אם ספק הראייה נכשל, השגיאה מטופלת בחן והסוכן ממשיך

אירועים

האורקסטרטור פולט שני אירועים במהלך עיבוד ראייה:

אירוע	תיאור
`vision_start`	תיאור תמונה מתחיל (כולל `imageCount`)
`vision_complete`	כל התמונות תוארו

אירועים אלה מניעים את ספינר "מנתח תמונה..." בממשקי CLI ו-Tidepool.

אם המודל הראשי שלכם כבר תומך בראייה (למשל, Anthropic Claude,

OpenAI GPT-4o, Google Gemini), אינכם צריכים להגדיר models.vision. תמונות יישלחו ישירות למודל הראשי כתוכן מרובה-מדיות. :::

ניתוח תמונות וראייה ​

קלט תמונות ​

CLI: הדבקה מלוח (Ctrl+V) ​

Tidepool: הדבקה בדפדפן ​

כלי image_analyze ​

חלופת מודל ראייה ​

כיצד זה עובד ​

תצורה ​

מתי חלופת ראייה מופעלת ​

אירועים ​