לפני זמן מה התחלתי לבחון מקרוב מה AI agents באמת יכולים לעשות. לא את הדמואים. את הדבר האמיתי -- מערכות שרצות על נתונים אמיתיים, בסביבות אמיתיות שבהן לטעויות יש מחיר. מה שגיליתי הוא שהיכולת באמת קיימת. אפשר לחבר agent למייל, ללוח השנה, לקוד ולקבצים, והוא מסוגל לעשות עבודה משמעותית. החלק הזה הרשים אותי.
מה שלא הרשים אותי היה מודל האבטחה. או ליתר דיוק, היעדרו. כל פלטפורמה שבדקתי אכפה את הכללים שלה באותו אופן: על ידי אמירה ל-model מה אסור לו לעשות. כתוב system prompt טוב, תאר את הגבולות, וסמוך על ה-model שישאר בתוכם. זה עובד עד שמישהו מגלה איך לנסח בקשה שמשכנעת את ה-model שהכללים לא חלים כאן, עכשיו, במקרה הספציפי הזה. ואנשים מגלים את זה. זה לא כזה קשה.
המשכתי לחכות שמישהו יבנה את הגרסה שבאמת רציתי להשתמש בה. כזו שמתחברת לכל דבר, עובדת בכל ערוץ שאני כבר משתמש בו, ומסוגלת לטפל בנתונים רגישים באמת בלי שאצטרך לשבת עם אצבעות משולבות ולקוות שה-model ביום טוב. היא לא הגיעה.
אז בניתי אותה בעצמי.
Triggerfish הוא ה-agent שרציתי. הוא מתחבר למייל, ללוח השנה, לקבצים, לקוד ולאפליקציות ההודעות שלך. הוא פועל באופן יזום, לא רק כשאתה שולח prompt. הוא עובד בדיוק איפה שאתה כבר עובד. אבל החלק שאני הכי רציני לגביו הוא ארכיטקטורת האבטחה. הכללים לגבי מה ה-agent יכול לגשת אליו ולאן נתונים יכולים לזרום לא נמצאים ב-prompt. הם נמצאים בשכבת אכיפה שיושבת מחוץ ל-model לגמרי. ה-model אומר למערכת מה הוא רוצה לעשות, ושכבה נפרדת מחליטה אם זה באמת יקרה. ה-model לא יכול לנהל משא ומתן עם השכבה הזו. הוא לא יכול לעקוף אותה בהיגיון. הוא אפילו לא יכול לראות אותה.
ההבחנה הזו חשובה יותר ממה שנשמע. היא אומרת שתכונות האבטחה של המערכת לא נשחקות ככל שה-model נעשה חזק יותר. היא אומרת שכלי צד שלישי שנפרץ לא יכול לשכנע את ה-agent לעשות משהו שהוא לא אמור. היא אומרת שאתה באמת יכול לקרוא את הכללים, להבין אותם ולסמוך עליהם -- כי הם קוד, לא טקסט חופשי.
שחררתי את enforcement core כקוד פתוח בדיוק מהסיבה הזו. אם אתה לא יכול לקרוא את זה, אתה לא יכול לסמוך על זה. זה נכון לגבי כל טענת אבטחה, וזה נכון במיוחד כשהדבר שאתה מאבטח הוא agent אוטונומי עם גישה לנתונים הרגישים ביותר שלך.
הפלטפורמה חינמית לאנשים פרטיים ואפשר להריץ אותה בעצמך. אם אתה מעדיף לא לחשוב על תשתיות, יש אפשרות מנוי שבה אנחנו מטפלים ב-model ובחיפוש. כך או כך, מודל האבטחה זהה.
זה ה-agent שחלמתי שיהיה קיים לפני שנתיים. אני חושב שהרבה אנשים חיכו לאותו דבר.
