Reka Bentuk Keselamatan-Dahulu
Triggerfish dibina atas satu premis: LLM mempunyai sifar autoriti. Ia meminta tindakan; lapisan dasar yang membuat keputusan. Setiap keputusan keselamatan dibuat oleh kod deterministik yang tidak boleh dilangkau, ditolak, atau dipengaruhi oleh AI.
Halaman ini menjelaskan mengapa Triggerfish mengambil pendekatan ini, bagaimana ia berbeza daripada platform ejen AI tradisional, dan di mana untuk mencari perincian tentang setiap komponen model keselamatan.
Mengapa Keselamatan Mesti Berada di Bawah LLM
Model bahasa besar boleh disuntik arahan. Input yang direka dengan teliti -- sama ada daripada mesej luaran berniat jahat, dokumen yang dicemari, atau respons alat yang terkompromi -- boleh menyebabkan LLM mengabaikan arahan dan mengambil tindakan yang dilarang. Ini bukan risiko teori. Ini adalah masalah yang terdokumentasi dengan baik dan belum diselesaikan dalam industri AI.
Jika model keselamatan anda bergantung pada LLM mengikuti peraturan, satu suntikan yang berjaya boleh memintas setiap perlindungan yang telah anda bina.
Triggerfish menyelesaikan masalah ini dengan memindahkan semua penguatkuasaan keselamatan ke lapisan kod yang berada di bawah LLM. AI tidak pernah melihat keputusan keselamatan. Ia tidak pernah menilai sama ada sesuatu tindakan perlu dibenarkan. Ia hanya meminta tindakan, dan lapisan penguatkuasaan dasar -- yang berjalan sebagai kod tulen, deterministik -- memutuskan sama ada tindakan tersebut diteruskan.
KESELAMATAN Lapisan LLM tidak mempunyai mekanisme untuk mengatasi, melangkau, atau mempengaruhi lapisan penguatkuasaan dasar. Tiada logik "urai output LLM untuk arahan pintasan". Pemisahan adalah seni bina, bukan tingkah laku. :::
Invarian Teras
Setiap keputusan reka bentuk dalam Triggerfish mengalir dari satu invarian:
Input yang sama sentiasa menghasilkan keputusan keselamatan yang sama. Tiada kerawakan, tiada panggilan LLM, tiada budi bicara.
Ini bermakna tingkah laku keselamatan adalah:
- Boleh diaudit -- anda boleh memainkan semula mana-mana keputusan dan mendapat keputusan yang sama
- Boleh diuji -- kod deterministik boleh diliputi oleh ujian automatik
- Boleh disahkan -- enjin dasar adalah sumber terbuka (berlesen Apache 2.0) dan sesiapa sahaja boleh menyemaknya
Prinsip Keselamatan
| Prinsip | Maksudnya | Halaman Perincian |
|---|---|---|
| Pengkelasan Data | Semua data membawa tahap sensitiviti (RESTRICTED, CONFIDENTIAL, INTERNAL, PUBLIC). Pengkelasan ditetapkan oleh kod apabila data memasuki sistem. | Seni Bina: Pengkelasan |
| Tanpa Tulis-Bawah | Data hanya boleh mengalir ke saluran dan penerima pada tahap pengkelasan yang sama atau lebih tinggi. Data CONFIDENTIAL tidak boleh mencapai saluran PUBLIC. | Peraturan Tanpa Tulis-Bawah |
| Taint Sesi | Apabila sesi mengakses data pada tahap pengkelasan tertentu, keseluruhan sesi ditaint ke tahap tersebut. Taint hanya boleh meningkat, tidak boleh menurun. | Seni Bina: Taint |
| Hook Deterministik | Lapan hook penguatkuasaan berjalan pada titik kritikal dalam setiap aliran data. Setiap hook adalah sinkronus, dilog, dan tidak boleh dipalsukan. | Seni Bina: Enjin Dasar |
| Identiti dalam Kod | Identiti pengguna ditentukan oleh kod semasa penubuhan sesi, bukan oleh LLM yang mentafsir kandungan mesej. | Identiti & Auth |
| Delegasi Ejen | Panggilan antara ejen dikawal oleh sijil kriptografi, siling pengkelasan, dan had kedalaman. | Delegasi Ejen |
| Pengasingan Rahsia | Kelayakan disimpan dalam keychain OS atau vault, tidak pernah dalam fail konfigurasi. Plugin tidak boleh mengakses kelayakan sistem. | Pengurusan Rahsia |
| Audit Semua Perkara | Setiap keputusan dasar dilog dengan konteks penuh: cap masa, jenis hook, ID sesi, input, keputusan, dan peraturan yang dinilai. | Audit & Pematuhan |
Ejen AI Tradisional vs. Triggerfish
Kebanyakan platform ejen AI bergantung pada LLM untuk menguatkuasakan keselamatan. Arahan sistem prompt berkata "jangan kongsi data sensitif," dan ejen dipercayai mematuhi. Pendekatan ini mempunyai kelemahan asas.
| Aspek | Ejen AI Tradisional | Triggerfish |
|---|---|---|
| Penguatkuasaan keselamatan | Arahan system prompt kepada LLM | Kod deterministik di bawah LLM |
| Pertahanan suntikan arahan | Berharap LLM menolak | LLM tidak mempunyai autoriti dari awal |
| Kawalan aliran data | LLM memutuskan apa yang selamat dikongsi | Label pengkelasan + peraturan tanpa-tulis-bawah dalam kod |
| Pengesahan identiti | LLM mentafsir "Saya adalah admin" | Kod menyemak identiti saluran kriptografi |
| Jejak audit | Log perbualan LLM | Log keputusan dasar berstruktur dengan konteks penuh |
| Akses kelayakan | Akaun perkhidmatan sistem untuk semua pengguna | Kelayakan pengguna yang didelegasikan; kebenaran sistem sumber diwarisi |
| Kebolehujian | Kabur -- bergantung pada susunan arahan | Deterministik -- input yang sama, keputusan yang sama, setiap masa |
| Terbuka untuk pengesahan | Biasanya proprietari | Berlesen Apache 2.0, boleh diaudit sepenuhnya |
Triggerfish tidak mendakwa bahawa LLM tidak boleh dipercayai. Ia mendakwa bahawa LLM adalah lapisan yang salah untuk penguatkuasaan keselamatan. LLM yang diarahan dengan baik akan mengikuti arahan sebahagian besar masa. Tetapi "sebahagian besar masa" bukan jaminan keselamatan. Triggerfish memberikan jaminan: lapisan dasar adalah kod, dan kod melakukan apa yang diarahkan, setiap masa. :::
Pertahanan Berlapis
Triggerfish melaksanakan tiga belas lapisan pertahanan. Tiada satu lapisan pun yang mencukupi sendiri; bersama-sama, mereka membentuk sempadan keselamatan:
- Pengesahan saluran -- identiti yang disahkan oleh kod semasa penubuhan sesi
- Akses data sedar-kebenaran -- kebenaran sistem sumber, bukan kelayakan sistem
- Penjejakan taint sesi -- automatik, mandatori, peningkatan sahaja
- Keturunan data -- rantaian provenance penuh untuk setiap elemen data
- Hook penguatkuasaan dasar -- deterministik, tidak boleh dipintas, dilog
- MCP Gateway -- akses alat luaran selamat dengan kebenaran per-alat
- Sandbox plugin -- pengasingan berganda Deno + WASM
- Pengasingan rahsia -- keychain OS atau vault, tidak pernah dalam fail konfigurasi
- Sandbox alat sistem fail -- penjara laluan, pengkelasan laluan, kebenaran I/O OS berlingkup-taint
- Identiti ejen -- rantaian delegasi kriptografi
- Log audit -- semua keputusan direkodkan, tiada pengecualian
- Pencegahan SSRF -- senarai tolak IP + semakan resolusi DNS pada semua HTTP keluar
- Penggerbangan pengkelasan memori -- penulisan dipaksa ke taint sesi, bacaan ditapis oleh
canFlowTo
Langkah Seterusnya
| Halaman | Keterangan |
|---|---|
| Panduan Pengkelasan | Panduan praktikal memilih tahap yang betul untuk saluran, pelayan MCP, dan integrasi |
| Peraturan Tanpa Tulis-Bawah | Peraturan aliran data asas dan cara ia dikuatkuasakan |
| Identiti & Auth | Pengesahan saluran dan pengesahan identiti pemilik |
| Delegasi Ejen | Identiti antara ejen, sijil, dan rantaian delegasi |
| Pengurusan Rahsia | Cara Triggerfish mengendalikan kelayakan merentasi peringkat |
| Audit & Pematuhan | Struktur jejak audit, penjejakan, dan eksport pematuhan |
