前段时间,我开始认真关注 AI Agent 到底能做什么。不是那些演示,而是真正运行在真实数据上、部署在真实环境中、出错会带来后果的那种。我发现能力确实已经到位了。你可以把一个 Agent 接入邮件、日历、代码和文件,它能完成有实际意义的工作。这一点让我印象深刻。
让我不满意的是安全模型——或者更准确地说,是安全模型的缺失。我考察过的每一个平台,执行规则的方式都一样:告诉模型什么不该做。写一个好的 system prompt,描述清楚边界,然后信任模型会待在边界之内。这种方式有效,直到有人想出如何措辞一个请求,让模型相信在此时此刻这个特定场景下,规则并不适用。人们确实能做到这一点,而且并不难。
我一直在等待有人构建出我真正想要使用的版本。一个能连接一切、跨越我已经在用的所有渠道工作、并且能处理真正敏感数据的版本——不用我祈祷模型今天状态好。但它始终没有出现。
于是我自己动手做了。
Triggerfish 就是我想要的 Agent。它连接你的邮件、日历、文件、代码和即时通讯应用。它主动运行,而不仅仅在你发出提示时才响应。它在你已经工作的地方工作。但我最重视的部分是安全架构。关于 Agent 能访问什么、数据能流向哪里的规则,不存在于 prompt 中,而是存在于模型之外的一个独立执行层中。模型告诉系统它想做什么,然后由一个单独的层来决定这件事是否真的发生。模型无法与这个层谈判,无法绕过它,甚至看不到它。
这个区别比听起来更重要。它意味着系统的安全特性不会因为模型变得更强而退化。它意味着一个被入侵的第三方工具无法说服 Agent 去做不该做的事。它意味着你可以真正阅读这些规则、理解它们、信任它们——因为它们是代码,不是自然语言。
我将执行层的核心开源,正是出于这个原因。如果你无法阅读它,你就无法信任它。这对于任何安全声明都成立,尤其当你要保护的是一个拥有你最敏感数据访问权限的自主 Agent 时更是如此。
这个平台对个人用户免费,你可以自行部署运行。如果你不想操心基础设施,也有订阅选项,由我们负责模型和搜索服务。无论哪种方式,安全模型都是一样的。
这就是两年前我期盼已久的 Agent。我相信很多人也一直在等待同样的东西。
