圖片分析與視覺
Triggerfish 支援跨所有介面的圖片輸入。您可以在 CLI 或瀏覽器中從剪貼簿貼上圖片,代理也可以分析磁碟上的圖片檔案。當您的主要模型不支援視覺時,可以配置獨立的視覺模型在圖片到達主要模型之前自動描述它們。
圖片輸入
CLI:剪貼簿貼上(Ctrl+V)
在 CLI 聊天中按 Ctrl+V 從系統剪貼簿貼上圖片。圖片從作業系統剪貼簿讀取,base64 編碼,並作為多模態內容區塊與您的文字訊息一起傳送給代理。
剪貼簿讀取支援:
- Linux ——
xclip或xsel - macOS ——
pbpaste/osascript - Windows —— PowerShell 剪貼簿存取
Tidepool:瀏覽器貼上
在 Tidepool 網頁介面中,使用瀏覽器的原生貼上功能(Ctrl+V / Cmd+V)直接將圖片貼入聊天輸入。圖片以資料 URL 讀取並作為 base64 編碼的內容區塊傳送。
image_analyze 工具
代理可以使用 image_analyze 工具分析磁碟上的圖片檔案。
| 參數 | 類型 | 必要 | 描述 |
|---|---|---|---|
path | string | 是 | 圖片檔案的絕對路徑 |
prompt | string | 否 | 關於圖片的問題或提示(預設:「Describe this image in detail」) |
支援格式: PNG、JPEG、GIF、WebP、BMP、SVG
工具讀取檔案、base64 編碼,並傳送給具有視覺能力的 LLM 供應商進行分析。
視覺模型備援
當您的主要模型不支援視覺(例如 Z.AI glm-5)時,您可以配置獨立的視覺模型在圖片到達主要模型之前自動描述它們。
運作方式
- 您貼上圖片(Ctrl+V)或傳送多模態內容
- 協調器偵測訊息中的圖片內容區塊
- 視覺模型描述每張圖片(您會看到「Analyzing image...」旋轉器)
- 圖片區塊被替換為文字描述:
[The user shared an image. A vision model described it as follows: ...] - 主要模型接收帶有描述的純文字訊息
- 系統提示提示告訴主要模型將描述視為它能看到圖片
這完全透明——您貼上圖片就能獲得回應,不論主要模型是否支援視覺。
配置
在您的模型配置中新增 vision 欄位:
yaml
models:
primary:
provider: zai
model: glm-5 # 非視覺主要模型
vision: glm-4.5v # 用於圖片描述的視覺模型
providers:
zai:
model: glm-5vision 模型重用主要供應商金鑰鏈條目的憑證。在此範例中,主要供應商是 zai,所以 glm-4.5v 使用儲存在作業系統金鑰鏈中 zai 供應商的相同 API 金鑰。
| 鍵 | 類型 | 描述 |
|---|---|---|
models.vision | string | 可選的視覺模型名稱,用於自動圖片描述 |
視覺備援何時啟動
- 僅當配置了
models.vision時 - 僅當訊息包含圖片內容區塊時
- 純字串訊息和純文字內容區塊完全跳過備援
- 如果視覺供應商失敗,錯誤會被優雅地處理,代理繼續運作
事件
協調器在視覺處理期間發出兩個事件:
| 事件 | 描述 |
|---|---|
vision_start | 圖片描述開始(包含 imageCount) |
vision_complete | 所有圖片已描述 |
這些事件驅動 CLI 和 Tidepool 介面中的「Analyzing image...」旋轉器。
如果您的主要模型已經支援視覺(例如 Anthropic Claude、OpenAI GPT-4o、Google Gemini),您不需要配置 models.vision。圖片會直接作為多模態內容傳送給主要模型。 :::
