圖片分析與視覺

Triggerfish 支援跨所有介面的圖片輸入。您可以在 CLI 或瀏覽器中從剪貼簿貼上圖片，代理也可以分析磁碟上的圖片檔案。當您的主要模型不支援視覺時，可以配置獨立的視覺模型在圖片到達主要模型之前自動描述它們。

圖片輸入

CLI：剪貼簿貼上（Ctrl+V）

在 CLI 聊天中按 Ctrl+V 從系統剪貼簿貼上圖片。圖片從作業系統剪貼簿讀取，base64 編碼，並作為多模態內容區塊與您的文字訊息一起傳送給代理。

剪貼簿讀取支援：

Linux —— xclip 或 xsel
macOS —— pbpaste / osascript
Windows —— PowerShell 剪貼簿存取

Tidepool：瀏覽器貼上

在 Tidepool 網頁介面中，使用瀏覽器的原生貼上功能（Ctrl+V / Cmd+V）直接將圖片貼入聊天輸入。圖片以資料 URL 讀取並作為 base64 編碼的內容區塊傳送。

`image_analyze` 工具

代理可以使用 image_analyze 工具分析磁碟上的圖片檔案。

參數	類型	必要	描述
`path`	string	是	圖片檔案的絕對路徑
`prompt`	string	否	關於圖片的問題或提示（預設：「Describe this image in detail」）

支援格式： PNG、JPEG、GIF、WebP、BMP、SVG

工具讀取檔案、base64 編碼，並傳送給具有視覺能力的 LLM 供應商進行分析。

視覺模型備援

當您的主要模型不支援視覺（例如 Z.AI glm-5）時，您可以配置獨立的視覺模型在圖片到達主要模型之前自動描述它們。

運作方式

您貼上圖片（Ctrl+V）或傳送多模態內容
協調器偵測訊息中的圖片內容區塊
視覺模型描述每張圖片（您會看到「Analyzing image...」旋轉器）
圖片區塊被替換為文字描述： [The user shared an image. A vision model described it as follows: ...]
主要模型接收帶有描述的純文字訊息
系統提示提示告訴主要模型將描述視為它能看到圖片

這完全透明——您貼上圖片就能獲得回應，不論主要模型是否支援視覺。

配置

在您的模型配置中新增 vision 欄位：

yaml

models:
  primary:
    provider: zai
    model: glm-5 # 非視覺主要模型
  vision: glm-4.5v # 用於圖片描述的視覺模型
  providers:
    zai:
      model: glm-5

vision 模型重用主要供應商金鑰鏈條目的憑證。在此範例中，主要供應商是 zai，所以 glm-4.5v 使用儲存在作業系統金鑰鏈中 zai 供應商的相同 API 金鑰。

鍵	類型	描述
`models.vision`	string	可選的視覺模型名稱，用於自動圖片描述

視覺備援何時啟動

僅當配置了 models.vision 時
僅當訊息包含圖片內容區塊時
純字串訊息和純文字內容區塊完全跳過備援
如果視覺供應商失敗，錯誤會被優雅地處理，代理繼續運作

事件

協調器在視覺處理期間發出兩個事件：

事件	描述
`vision_start`	圖片描述開始（包含 `imageCount`）
`vision_complete`	所有圖片已描述

這些事件驅動 CLI 和 Tidepool 介面中的「Analyzing image...」旋轉器。

如果您的主要模型已經支援視覺（例如 Anthropic Claude、OpenAI GPT-4o、Google Gemini），您不需要配置 models.vision。圖片會直接作為多模態內容傳送給主要模型。 :::

圖片分析與視覺 ​

圖片輸入 ​

CLI：剪貼簿貼上（Ctrl+V） ​

Tidepool：瀏覽器貼上 ​

image_analyze 工具 ​

視覺模型備援 ​

運作方式 ​

配置 ​

視覺備援何時啟動 ​

事件 ​

圖片分析與視覺

圖片輸入

CLI：剪貼簿貼上（Ctrl+V）

Tidepool：瀏覽器貼上

`image_analyze` 工具

視覺模型備援

運作方式

配置

視覺備援何時啟動

事件