Skip to content
← 部落格

我打造了自己一直渴望擁有的 AI Agent

前陣子,我開始認真關注 AI Agent 到底能做些什麼。不是那些展示,而是真正運行在真實資料上、部署在真實環境中、出錯會帶來後果的那種。我發現能力確實已經到位了。你可以把一個 Agent 接上電子郵件、行事曆、程式碼和檔案,它能完成有實際意義的工作。這一點讓我印象深刻。

讓我不滿意的是安全模型——或者更準確地說,是安全模型的缺失。我考察過的每一個平台,執行規則的方式都一樣:告訴模型什麼不該做。寫一個好的 system prompt,描述清楚界限,然後信任模型會待在界限之內。這種方式有效,直到有人想出如何措辭一個請求,讓模型相信在此時此刻這個特定情境下,規則並不適用。人們確實能做到這一點,而且並不困難。

我一直在等待有人打造出我真正想要使用的版本。一個能連接一切、跨越我已經在用的所有管道工作、並且能處理真正敏感資料的版本——不用我祈禱模型今天狀態好。但它始終沒有出現。

於是我自己動手做了。

Triggerfish 就是我想要的 Agent。它連接你的電子郵件、行事曆、檔案、程式碼和即時通訊應用程式。它主動運作,而不僅僅在你發出提示時才回應。它在你已經工作的地方工作。但我最重視的部分是安全架構。關於 Agent 能存取什麼、資料能流向哪裡的規則,不存在於 prompt 中,而是存在於模型之外的一個獨立執行層中。模型告訴系統它想做什麼,然後由一個單獨的層來決定這件事是否真的發生。模型無法與這個層協商,無法繞過它,甚至看不到它。

這個區別比聽起來更為重要。它意味著系統的安全特性不會因為模型變得更強大而退化。它意味著一個被入侵的第三方工具無法說服 Agent 去做不該做的事。它意味著你可以真正閱讀這些規則、理解它們、信任它們——因為它們是程式碼,不是自然語言。

我將執行層的核心開源,正是出於這個原因。如果你無法閱讀它,你就無法信任它。這對於任何安全聲明都成立,尤其當你要保護的是一個擁有你最敏感資料存取權限的自主 Agent 時更是如此。

這個平台對個人使用者免費,你可以自行部署運行。如果你不想操心基礎設施,也有訂閱選項,由我們負責模型和搜尋服務。無論哪種方式,安全模型都是一樣的。

這就是兩年前我期盼已久的 Agent。我相信很多人也一直在等待同樣的東西。