Image Analysis आणि Vision
Triggerfish सर्व interfaces वर image input support करतो. तुम्ही CLI किंवा browser मध्ये clipboard वरून images paste करू शकता, आणि एजंट disk वरील image files analyze करू शकतो. तुमचा primary model vision support करत नसताना, एक स्वतंत्र vision model primary model ला images पोहोचण्यापूर्वी आपोआप त्यांचे describe करू शकतो.
Image Input
CLI: Clipboard Paste (Ctrl+V)
CLI chat मध्ये तुमच्या system clipboard वरून image paste करण्यासाठी Ctrl+V दाबा. Image OS clipboard वरून read केला जातो, base64-encoded, आणि तुमच्या text message सोबत multimodal content block म्हणून एजंटला पाठवला जातो.
Clipboard reading support करतो:
- Linux --
xclipकिंवाxsel - macOS --
pbpaste/osascript - Windows -- PowerShell clipboard access
Tidepool: Browser Paste
Tidepool web interface मध्ये, तुमच्या browser च्या native paste functionality (Ctrl+V / Cmd+V) वापरून chat input मध्ये थेट images paste करा. Image data URL म्हणून read केला जातो आणि base64-encoded content block म्हणून पाठवला जातो.
image_analyze Tool
एजंट image_analyze tool वापरून disk वरील image files analyze करू शकतो.
| Parameter | Type | Required | वर्णन |
|---|---|---|---|
path | string | हो | Image file चा absolute path |
prompt | string | नाही | Image बद्दल question किंवा prompt (default: "Describe this image in detail") |
Supported formats: PNG, JPEG, GIF, WebP, BMP, SVG
Tool file read करतो, base64-encode करतो, आणि analysis साठी vision-capable LLM provider ला पाठवतो.
Vision Model Fallback
तुमचा primary model vision support करत नसताना (उदा., Z.AI glm-5), तुम्ही primary model ला images पोहोचण्यापूर्वी images automatically describe करण्यासाठी स्वतंत्र vision model configure करू शकता.
हे कसे काम करते
- तुम्ही image paste करता (Ctrl+V) किंवा multimodal content पाठवता
- Orchestrator message मध्ये image content blocks detect करतो
- Vision model प्रत्येक image describe करतो (तुम्हाला "Analyzing image..." spinner दिसतो)
- Image blocks text descriptions ने replace केले जातात:
[The user shared an image. A vision model described it as follows: ...] - Primary model descriptions सह text-only message receive करतो
- System prompt hint primary model ला descriptions ला जणू ते images पाहू शकतो असे treat करण्यास सांगतो
हे पूर्णपणे transparent आहे -- तुम्ही image paste करता आणि response मिळवता, primary model vision support करतो की नाही याची पर्वा न करता.
Configuration
तुमच्या models config मध्ये vision field जोडा:
yaml
models:
primary:
provider: zai
model: glm-5 # Non-vision primary model
vision: glm-4.5v # Vision model for image description
providers:
zai:
model: glm-5vision model primary provider च्या keychain entry मधील credentials reuse करतो. या example मध्ये, primary provider zai आहे, त्यामुळे glm-4.5v OS keychain मध्ये zai provider साठी stored त्याच API key वापरतो.
| Key | Type | वर्णन |
|---|---|---|
models.vision | string | Automatic image description साठी optional vision model name |
Vision Fallback केव्हा Activate होतो
- फक्त जेव्हा
models.visionconfigured आहे - फक्त जेव्हा message मध्ये image content blocks असतात
- String-only messages आणि text-only content blocks fallback पूर्णपणे skip करतात
- Vision provider fail झाल्यास, error gracefully handled होतो आणि एजंट continue करतो
Events
Vision processing दरम्यान orchestrator दोन events emit करतो:
| Event | वर्णन |
|---|---|
vision_start | Image description सुरू होतो (imageCount समाविष्ट) |
vision_complete | सर्व images described |
हे events CLI आणि Tidepool interfaces मध्ये "Analyzing image..." spinner drive करतात.
जर तुमचा primary model आधीच vision support करत असेल (उदा., Anthropic
Claude, OpenAI GPT-4o, Google Gemini), तुम्हाला models.vision configure करण्याची आवश्यकता नाही. Images primary model ला multimodal content म्हणून थेट पाठवल्या जातील. :::
