ניתוח תמונות וראייה
Triggerfish תומך בקלט תמונות בכל הממשקים. ניתן להדביק תמונות מהלוח שלכם ב-CLI או בדפדפן, והסוכן יכול לנתח קובצי תמונה בדיסק. כאשר המודל הראשי שלכם אינו תומך בראייה, מודל ראייה נפרד יכול לתאר תמונות אוטומטית לפני שהן מגיעות למודל הראשי.
קלט תמונות
CLI: הדבקה מלוח (Ctrl+V)
לחצו Ctrl+V בצ'אט ה-CLI כדי להדביק תמונה מלוח המערכת שלכם. התמונה נקראת מלוח ה-OS, מקודדת ב-base64 ונשלחת לסוכן כבלוק תוכן מרובה-מדיות לצד הודעת הטקסט שלכם.
קריאת לוח תומכת ב:
- Linux --
xclipאוxsel - macOS --
pbpaste/osascript - Windows -- גישת לוח PowerShell
Tidepool: הדבקה בדפדפן
בממשק הרשת של Tidepool, הדביקו תמונות ישירות לקלט הצ'אט באמצעות פונקציונליות ההדבקה המקורית של הדפדפן שלכם (Ctrl+V / Cmd+V). התמונה נקראת ככתובת URL של נתונים ונשלחת כבלוק תוכן מקודד ב-base64.
כלי image_analyze
הסוכן יכול לנתח קובצי תמונה בדיסק באמצעות כלי image_analyze.
| פרמטר | סוג | נדרש | תיאור |
|---|---|---|---|
path | string | כן | נתיב מוחלט לקובץ התמונה |
prompt | string | לא | שאלה או prompt לגבי התמונה (ברירת מחדל: "Describe this image in detail") |
פורמטים נתמכים: PNG, JPEG, GIF, WebP, BMP, SVG
הכלי קורא את הקובץ, מקודד אותו ב-base64 ושולח אותו לספק LLM בעל יכולת ראייה לניתוח.
חלופת מודל ראייה
כאשר המודל הראשי שלכם אינו תומך בראייה (למשל, Z.AI glm-5), ניתן להגדיר מודל ראייה נפרד לתיאור אוטומטי של תמונות לפני שהן מגיעות למודל הראשי.
כיצד זה עובד
- אתם מדביקים תמונה (Ctrl+V) או שולחים תוכן מרובה-מדיות
- האורקסטרטור מזהה בלוקי תוכן תמונה בהודעה
- מודל הראייה מתאר כל תמונה (אתם רואים ספינר "מנתח תמונה...")
- בלוקי תמונה מוחלפים בתיאורי טקסט:
[The user shared an image. A vision model described it as follows: ...] - המודל הראשי מקבל הודעת טקסט בלבד עם התיאורים
- רמז system prompt אומר למודל הראשי להתייחס לתיאורים כאילו הוא רואה את התמונות
זה שקוף לחלוטין -- אתם מדביקים תמונה ומקבלים תגובה, ללא קשר לשאלה האם המודל הראשי תומך בראייה.
תצורה
הוסיפו שדה vision לתצורת המודלים שלכם:
yaml
models:
primary:
provider: zai
model: glm-5 # מודל ראשי ללא ראייה
vision: glm-4.5v # מודל ראייה לתיאור תמונות
providers:
zai:
model: glm-5מודל ה-vision משתמש באישורים מרשומת ה-keychain של הספק הראשי. בדוגמה זו, הספק הראשי הוא zai, אז glm-4.5v משתמש באותו מפתח API שמאוחסן ב-OS keychain עבור ספק zai.
| מפתח | סוג | תיאור |
|---|---|---|
models.vision | string | שם מודל ראייה אופציונלי לתיאור תמונות אוטומטי |
מתי חלופת ראייה מופעלת
- רק כאשר
models.visionמוגדר - רק כאשר ההודעה מכילה בלוקי תוכן תמונה
- הודעות טקסט בלבד ובלוקי תוכן טקסט מדלגים על החלופה לחלוטין
- אם ספק הראייה נכשל, השגיאה מטופלת בחן והסוכן ממשיך
אירועים
האורקסטרטור פולט שני אירועים במהלך עיבוד ראייה:
| אירוע | תיאור |
|---|---|
vision_start | תיאור תמונה מתחיל (כולל imageCount) |
vision_complete | כל התמונות תוארו |
אירועים אלה מניעים את ספינר "מנתח תמונה..." בממשקי CLI ו-Tidepool.
אם המודל הראשי שלכם כבר תומך בראייה (למשל, Anthropic Claude,
OpenAI GPT-4o, Google Gemini), אינכם צריכים להגדיר models.vision. תמונות יישלחו ישירות למודל הראשי כתוכן מרובה-מדיות. :::
