Skip to content

圖片分析與視覺

Triggerfish 支援跨所有介面的圖片輸入。您可以在 CLI 或瀏覽器中從剪貼簿貼上圖片,代理也可以分析磁碟上的圖片檔案。當您的主要模型不支援視覺時,可以配置獨立的視覺模型在圖片到達主要模型之前自動描述它們。

圖片輸入

CLI:剪貼簿貼上(Ctrl+V)

在 CLI 聊天中按 Ctrl+V 從系統剪貼簿貼上圖片。圖片從作業系統剪貼簿讀取,base64 編碼,並作為多模態內容區塊與您的文字訊息一起傳送給代理。

剪貼簿讀取支援:

  • Linux —— xclipxsel
  • macOS —— pbpaste / osascript
  • Windows —— PowerShell 剪貼簿存取

Tidepool:瀏覽器貼上

在 Tidepool 網頁介面中,使用瀏覽器的原生貼上功能(Ctrl+V / Cmd+V)直接將圖片貼入聊天輸入。圖片以資料 URL 讀取並作為 base64 編碼的內容區塊傳送。

image_analyze 工具

代理可以使用 image_analyze 工具分析磁碟上的圖片檔案。

參數類型必要描述
pathstring圖片檔案的絕對路徑
promptstring關於圖片的問題或提示(預設:「Describe this image in detail」)

支援格式: PNG、JPEG、GIF、WebP、BMP、SVG

工具讀取檔案、base64 編碼,並傳送給具有視覺能力的 LLM 供應商進行分析。

視覺模型備援

當您的主要模型不支援視覺(例如 Z.AI glm-5)時,您可以配置獨立的視覺模型在圖片到達主要模型之前自動描述它們。

運作方式

  1. 您貼上圖片(Ctrl+V)或傳送多模態內容
  2. 協調器偵測訊息中的圖片內容區塊
  3. 視覺模型描述每張圖片(您會看到「Analyzing image...」旋轉器)
  4. 圖片區塊被替換為文字描述: [The user shared an image. A vision model described it as follows: ...]
  5. 主要模型接收帶有描述的純文字訊息
  6. 系統提示提示告訴主要模型將描述視為它能看到圖片

這完全透明——您貼上圖片就能獲得回應,不論主要模型是否支援視覺。

配置

在您的模型配置中新增 vision 欄位:

yaml
models:
  primary:
    provider: zai
    model: glm-5 # 非視覺主要模型
  vision: glm-4.5v # 用於圖片描述的視覺模型
  providers:
    zai:
      model: glm-5

vision 模型重用主要供應商金鑰鏈條目的憑證。在此範例中,主要供應商是 zai,所以 glm-4.5v 使用儲存在作業系統金鑰鏈中 zai 供應商的相同 API 金鑰。

類型描述
models.visionstring可選的視覺模型名稱,用於自動圖片描述

視覺備援何時啟動

  • 僅當配置了 models.vision
  • 僅當訊息包含圖片內容區塊時
  • 純字串訊息和純文字內容區塊完全跳過備援
  • 如果視覺供應商失敗,錯誤會被優雅地處理,代理繼續運作

事件

協調器在視覺處理期間發出兩個事件:

事件描述
vision_start圖片描述開始(包含 imageCount
vision_complete所有圖片已描述

這些事件驅動 CLI 和 Tidepool 介面中的「Analyzing image...」旋轉器。

如果您的主要模型已經支援視覺(例如 Anthropic Claude、OpenAI GPT-4o、Google Gemini),您不需要配置 models.vision。圖片會直接作為多模態內容傳送給主要模型。 :::