Analisis de Imagenes y Vision

Triggerfish soporta entrada de imagenes en todas las interfaces. Puede pegar imagenes desde su portapapeles en el CLI o navegador, y el agente puede analizar archivos de imagen en disco. Cuando su modelo principal no soporta vision, un modelo de vision separado puede describir imagenes automaticamente antes de que lleguen al modelo principal.

Entrada de Imagenes

CLI: Pegado del Portapapeles (Ctrl+V)

Presione Ctrl+V en el chat CLI para pegar una imagen de su portapapeles del sistema. La imagen se lee del portapapeles del SO, se codifica en base64 y se envia al agente como un bloque de contenido multimodal junto con su mensaje de texto.

La lectura del portapapeles soporta:

Linux -- xclip o xsel
macOS -- pbpaste / osascript
Windows -- Acceso al portapapeles via PowerShell

Tidepool: Pegado en el Navegador

En la interfaz web de Tidepool, pegue imagenes directamente en el campo de entrada del chat usando la funcionalidad nativa de pegado de su navegador (Ctrl+V / Cmd+V). La imagen se lee como URL de datos y se envia como un bloque de contenido codificado en base64.

Herramienta `image_analyze`

El agente puede analizar archivos de imagen en disco usando la herramienta image_analyze.

Parametro	Tipo	Requerido	Descripcion
`path`	string	si	Ruta absoluta al archivo de imagen
`prompt`	string	no	Pregunta o prompt sobre la imagen (predeterminado: "Describe this image in detail")

Formatos soportados: PNG, JPEG, GIF, WebP, BMP, SVG

La herramienta lee el archivo, lo codifica en base64 y lo envia a un proveedor LLM capaz de vision para analisis.

Fallback de Modelo de Vision

Cuando su modelo principal no soporta vision (ej., Z.AI glm-5), puede configurar un modelo de vision separado para describir imagenes automaticamente antes de que lleguen al modelo principal.

Como Funciona

Usted pega una imagen (Ctrl+V) o envia contenido multimodal
El orquestador detecta bloques de contenido de imagen en el mensaje
El modelo de vision describe cada imagen (ve un spinner "Analizando imagen...")
Los bloques de imagen se reemplazan con descripciones de texto: [The user shared an image. A vision model described it as follows: ...]
El modelo principal recibe un mensaje de solo texto con las descripciones
Un hint en el system prompt le dice al modelo principal que trate las descripciones como si pudiera ver las imagenes

Esto es completamente transparente -- usted pega una imagen y obtiene una respuesta, sin importar si el modelo principal soporta vision.

Configuracion

Agregue un campo vision a su configuracion de modelos:

yaml

models:
  primary:
    provider: zai
    model: glm-5 # Modelo principal sin vision
  vision: glm-4.5v # Modelo de vision para descripcion de imagenes
  providers:
    zai:
      model: glm-5

El modelo vision reutiliza credenciales de la entrada del keychain del proveedor principal. En este ejemplo, el proveedor principal es zai, asi que glm-4.5v usa la misma API key almacenada en el keychain del SO para el proveedor zai.

Clave	Tipo	Descripcion
`models.vision`	string	Nombre opcional del modelo de vision para descripcion automatica de imagenes

Cuando se Activa el Fallback de Vision

Solo cuando models.vision esta configurado
Solo cuando el mensaje contiene bloques de contenido de imagen
Mensajes de solo texto y bloques de contenido de solo texto omiten el fallback completamente
Si el proveedor de vision falla, el error se maneja de forma elegante y el agente continua

Eventos

El orquestador emite dos eventos durante el procesamiento de vision:

Evento	Descripcion
`vision_start`	Comienza la descripcion de imagen (incluye `imageCount`)
`vision_complete`	Todas las imagenes descritas

Estos eventos impulsan el spinner "Analizando imagen..." en las interfaces CLI y Tidepool.

Si su modelo principal ya soporta vision (ej., Anthropic Claude, OpenAI

GPT-4o, Google Gemini), no necesita configurar models.vision. Las imagenes se enviaran directamente al modelo principal como contenido multimodal. :::

Analisis de Imagenes y Vision ​

Entrada de Imagenes ​

CLI: Pegado del Portapapeles (Ctrl+V) ​

Tidepool: Pegado en el Navegador ​

Herramienta image_analyze ​

Fallback de Modelo de Vision ​

Como Funciona ​

Configuracion ​

Cuando se Activa el Fallback de Vision ​

Eventos ​