图像分析和视觉
Triggerfish 支持在所有界面上进行图像输入。你可以在 CLI 或浏览器中从剪贴板粘贴图像,智能体可以分析磁盘上的图像文件。当你的主模型不支持视觉时,一个单独的视觉模型可以在图像到达主模型之前自动描述它们。
图像输入
CLI:剪贴板粘贴(Ctrl+V)
在 CLI 聊天中按 Ctrl+V 从系统剪贴板粘贴图像。图像从操作系统剪贴板读取,base64 编码,并作为多模态内容块与文本消息一起发送给智能体。
剪贴板读取支持:
- Linux ——
xclip或xsel - macOS ——
pbpaste/osascript - Windows —— PowerShell 剪贴板访问
Tidepool:浏览器粘贴
在 Tidepool 网页界面中,使用浏览器的原生粘贴功能(Ctrl+V / Cmd+V)直接将图像粘贴到聊天输入中。图像作为 data URL 读取,并作为 base64 编码的内容块发送。
image_analyze 工具
智能体可以使用 image_analyze 工具分析磁盘上的图像文件。
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
path | string | 是 | 图像文件的绝对路径 |
prompt | string | 否 | 关于图像的问题或提示(默认:"详细描述这张图像") |
支持的格式: PNG、JPEG、GIF、WebP、BMP、SVG
该工具读取文件,base64 编码,并发送到支持视觉的 LLM 提供商进行分析。
视觉模型回退
当你的主模型不支持视觉时(例如 Z.AI glm-5),你可以配置一个单独的视觉模型在图像到达主模型之前自动描述它们。
工作原理
- 你粘贴图像(Ctrl+V)或发送多模态内容
- 编排器检测消息中的图像内容块
- 视觉模型描述每张图像(你会看到"正在分析图像..."的旋转指示器)
- 图像块被替换为文本描述:
[用户分享了一张图像。视觉模型的描述如下:...] - 主模型接收带有描述的纯文本消息
- 系统提示提示主模型将描述视为它能看到图像
这是完全透明的——你粘贴图像就能得到响应,无论主模型是否支持视觉。
配置
在模型配置中添加 vision 字段:
yaml
models:
primary:
provider: zai
model: glm-5 # 非视觉主模型
vision: glm-4.5v # 用于图像描述的视觉模型
providers:
zai:
model: glm-5vision 模型复用主提供商的钥匙串条目中的凭证。在此示例中,主提供商是 zai,因此 glm-4.5v 使用存储在操作系统钥匙串中的 zai 提供商 API 密钥。
| 键 | 类型 | 描述 |
|---|---|---|
models.vision | string | 可选的视觉模型名称,用于自动图像描述 |
视觉回退何时激活
- 仅当配置了
models.vision时 - 仅当消息包含图像内容块时
- 纯字符串消息和纯文本内容块完全跳过回退
- 如果视觉提供商失败,错误被优雅处理,智能体继续
事件
编排器在视觉处理期间发出两个事件:
| 事件 | 描述 |
|---|---|
vision_start | 图像描述开始(包含 imageCount) |
vision_complete | 所有图像描述完成 |
这些事件驱动 CLI 和 Tidepool 界面中的"正在分析图像..."旋转指示器。
如果你的主模型已经支持视觉(例如 Anthropic Claude、OpenAI GPT-4o、Google Gemini),你不需要配置 models.vision。图像将直接作为多模态内容发送到主模型。 :::
