छवि विश्लेषण और Vision
Triggerfish सभी interfaces में छवि इनपुट का समर्थन करता है। आप CLI या ब्राउज़र में अपने clipboard से छवियाँ पेस्ट कर सकते हैं, और agent डिस्क पर छवि फ़ाइलों का विश्लेषण कर सकता है। जब आपका प्राथमिक model vision का समर्थन नहीं करता, तो एक अलग vision model स्वचालित रूप से छवियों का वर्णन कर सकता है इससे पहले कि वे प्राथमिक model तक पहुँचें।
छवि इनपुट
CLI: Clipboard पेस्ट (Ctrl+V)
CLI chat में Ctrl+V दबाएँ ताकि आपके system clipboard से एक छवि पेस्ट हो। छवि OS clipboard से पढ़ी जाती है, base64-encoded की जाती है, और आपके text संदेश के साथ एक multimodal content block के रूप में agent को भेजी जाती है।
Clipboard पठन समर्थन करता है:
- Linux --
xclipयाxsel - macOS --
pbpaste/osascript - Windows -- PowerShell clipboard एक्सेस
Tidepool: ब्राउज़र पेस्ट
Tidepool web interface में, अपने ब्राउज़र की native paste कार्यक्षमता (Ctrl+V / Cmd+V) का उपयोग करके chat इनपुट में सीधे छवियाँ पेस्ट करें। छवि data URL के रूप में पढ़ी जाती है और base64-encoded content block के रूप में भेजी जाती है।
image_analyze Tool
Agent image_analyze tool का उपयोग करके डिस्क पर छवि फ़ाइलों का विश्लेषण कर सकता है।
| Parameter | Type | आवश्यक | विवरण |
|---|---|---|---|
path | string | हाँ | छवि फ़ाइल का absolute path |
prompt | string | नहीं | छवि के बारे में प्रश्न या prompt (डिफ़ॉल्ट: "Describe this image in detail") |
समर्थित formats: PNG, JPEG, GIF, WebP, BMP, SVG
Tool फ़ाइल पढ़ता है, base64-encode करता है, और विश्लेषण के लिए एक vision-सक्षम LLM provider को भेजता है।
Vision Model Fallback
जब आपका प्राथमिक model vision का समर्थन नहीं करता (जैसे Z.AI glm-5), तो आप एक अलग vision model कॉन्फ़िगर कर सकते हैं जो छवियों का स्वचालित रूप से वर्णन करता है इससे पहले कि वे प्राथमिक model तक पहुँचें।
यह कैसे काम करता है
- आप एक छवि पेस्ट करते हैं (Ctrl+V) या multimodal content भेजते हैं
- Orchestrator संदेश में छवि content blocks का पता लगाता है
- Vision model प्रत्येक छवि का वर्णन करता है (आपको "Analyzing image..." spinner दिखाई देता है)
- छवि blocks को text विवरणों से बदला जाता है:
[The user shared an image. A vision model described it as follows: ...] - प्राथमिक model विवरणों के साथ एक text-only संदेश प्राप्त करता है
- एक system prompt संकेत प्राथमिक model को बताता है कि विवरणों को ऐसे माने जैसे वह छवियाँ देख सकता है
यह पूरी तरह पारदर्शी है -- आप एक छवि पेस्ट करते हैं और प्रतिक्रिया प्राप्त करते हैं, इसकी परवाह किए बिना कि प्राथमिक model vision का समर्थन करता है या नहीं।
कॉन्फ़िगरेशन
अपने models config में vision फ़ील्ड जोड़ें:
yaml
models:
primary:
provider: zai
model: glm-5 # गैर-vision प्राथमिक model
vision: glm-4.5v # छवि विवरण के लिए Vision model
providers:
zai:
model: glm-5vision model प्राथमिक provider के keychain entry से credentials पुनः उपयोग करता है। इस उदाहरण में, प्राथमिक provider zai है, इसलिए glm-4.5v zai provider के लिए OS keychain में संग्रहीत वही API key उपयोग करता है।
| Key | Type | विवरण |
|---|---|---|
models.vision | string | स्वचालित छवि विवरण के लिए वैकल्पिक vision model नाम |
Vision Fallback कब सक्रिय होता है
- केवल जब
models.visionकॉन्फ़िगर किया गया हो - केवल जब संदेश में छवि content blocks हों
- String-only संदेश और text-only content blocks fallback को छोड़ देते हैं
- यदि vision provider विफल होता है, error को gracefully संभाला जाता है और agent जारी रहता है
Events
Orchestrator vision प्रोसेसिंग के दौरान दो events उत्सर्जित करता है:
| Event | विवरण |
|---|---|
vision_start | छवि विवरण शुरू होता है (imageCount सहित) |
vision_complete | सभी छवियों का वर्णन हो गया |
ये events CLI और Tidepool interfaces में "Analyzing image..." spinner चलाते हैं।
यदि आपका प्राथमिक model पहले से vision का समर्थन करता है (जैसे Anthropic
Claude, OpenAI GPT-4o, Google Gemini), तो आपको models.vision कॉन्फ़िगर करने की आवश्यकता नहीं है। छवियाँ सीधे प्राथमिक model को multimodal content के रूप में भेजी जाएँगी। :::
