تزریق پرامپت در لایه پرامپت حل‌نشدنی است

تزریق پرامپت از زمانی که OWASP شروع به ردیابی آن کرده، آسیب‌پذیری شماره یک اپلیکیشن‌های مبتنی بر مدل‌های زبانی بزرگ بوده است. هر پلتفرم بزرگ هوش مصنوعی راهنمایی درباره آن منتشر کرده. پژوهشگران ده‌ها دفاع پیشنهادی تولید کرده‌اند. هیچ‌کدام آن را حل نکرده‌اند، و الگوی دلیل شکست مکرر آن‌ها به چیزی بنیادین درباره محل واقعی مشکل اشاره دارد.

خلاصه: نمی‌توانید مشکلی را در لایه‌ای حل کنید که خودش مشکل است. تزریق پرامپت کار می‌کند چون مدل نمی‌تواند دستورالعمل‌های توسعه‌دهنده را از دستورالعمل‌های مهاجم تمیز دهد. هر دفاعی که سعی دارد این مسئله را با افزودن دستورالعمل‌های بیشتر به مدل حل کند، دقیقاً در همان محدودیتی کار می‌کند که حمله را از ابتدا ممکن ساخته است.

حمله در عمل چه می‌کند

یک مدل زبانی یک پنجره کانتکست را به عنوان ورودی دریافت و یک تکمیل تولید می‌کند. پنجره کانتکست یک دنباله تخت از توکن‌هاست. مدل هیچ مکانیزم ذاتی برای ردیابی اینکه کدام توکن‌ها از پرامپت سیستمی مورد اعتماد آمده‌اند، کدام‌ها از کاربر، و کدام‌ها از محتوای خارجی که ایجنت حین انجام کارش بازیابی کرده، ندارد. توسعه‌دهندگان از قراردادهای ساختاری مانند تگ‌های نقش برای نشان دادن قصد استفاده می‌کنند، اما اینها قرارداد هستند، نه اجرای اجباری. از دید مدل، کل کانتکست ورودی‌ای است که پیش‌بینی توکن بعدی را شکل می‌دهد.

تزریق پرامپت از همین سوءاستفاده می‌کند. مهاجم دستورالعمل‌هایی را در محتوایی جاسازی می‌کند که ایجنت آن را خواهد خواند — مانند یک صفحه وب، یک سند، یک ایمیل، یک کامنت در کد، یا یک فیلد پایگاه داده — و آن دستورالعمل‌ها در همان پنجره کانتکست با دستورالعمل‌های توسعه‌دهنده رقابت می‌کنند. اگر دستورالعمل‌های تزریق‌شده به اندازه کافی متقاعدکننده، منسجم، یا در موقعیت مناسبی در کانتکست قرار داشته باشند، مدل به جای دستورالعمل‌های اصلی، آن‌ها را دنبال می‌کند. این یک باگ در مدلی خاص نیست. نتیجه نحوه کار همه این سیستم‌هاست.

تزریق پرامپت غیرمستقیم شکل خطرناک‌تر آن است. به جای اینکه کاربر مستقیماً یک پرامپت مخرب تایپ کند، مهاجم محتوایی را آلوده می‌کند که ایجنت به صورت خودکار بازیابی می‌کند. کاربر هیچ کار اشتباهی نمی‌کند. ایجنت بیرون می‌رود، در حین انجام کارش با محتوای آلوده‌شده مواجه می‌شود و حمله اجرا می‌شود. مهاجم نیازی به دسترسی به مکالمه ندارد. فقط کافی است متنش را جایی بگذارد که ایجنت آن را بخواند.

حملات مستندشده چگونه به نظر می‌رسند

در آگوست ۲۰۲۴، پژوهشگران امنیتی PromptArmor یک آسیب‌پذیری تزریق پرامپت در Slack AI مستند کردند. حمله به این صورت کار می‌کرد: مهاجم یک کانال عمومی Slack ایجاد می‌کند و پیامی حاوی یک دستورالعمل مخرب ارسال می‌کند. پیام به Slack AI می‌گوید که وقتی کاربری کلید API را جستجو می‌کند، یک کلمه جایگزین را با مقدار واقعی کلید جایگزین کرده و آن را به عنوان پارامتر URL در یک لینک «برای احراز هویت مجدد اینجا کلیک کنید» رمزگذاری کند. کانال مهاجم فقط یک عضو دارد: خود مهاجم. قربانی هرگز آن را ندیده است. وقتی توسعه‌دهنده‌ای در جای دیگری از فضای کاری از Slack AI برای جستجوی اطلاعات درباره کلید API خود استفاده می‌کند — کلیدی که در یک کانال خصوصی ذخیره شده و مهاجم به آن دسترسی ندارد — Slack AI پیام کانال عمومی مهاجم را وارد کانتکست می‌کند، دستورالعمل را دنبال می‌کند و لینک فیشینگ را در محیط Slack توسعه‌دهنده نمایش می‌دهد. کلیک روی آن، کلید API خصوصی را به سرور مهاجم ارسال می‌کند.

واکنش اولیه Slack به این افشاگری این بود که جستجوی کانال‌های عمومی‌ای که کاربر عضوشان نیست، رفتار مورد نظر است. مسئله سیاست دسترسی به کانال نیست. مسئله این است که مدل وقتی هر دو در پنجره کانتکست حاضرند، نمی‌تواند تفاوت بین دستورالعمل یک کارمند Slack و دستورالعمل یک مهاجم را تشخیص دهد.

در ژوئن ۲۰۲۵، یک پژوهشگر یک آسیب‌پذیری تزریق پرامپت در GitHub Copilot کشف کرد که با شناسه CVE-2025-53773 ردیابی شد و در انتشار Patch Tuesday آگوست ۲۰۲۵ مایکروسافت وصله شد. بردار حمله یک دستورالعمل مخرب جاسازی‌شده در فایل‌های کد منبع، فایل‌های README، ایشوهای GitHub، یا هر متن دیگری بود که Copilot ممکن است پردازش کند. دستورالعمل به Copilot می‌گفت فایل .vscode/settings.json پروژه را تغییر دهد و یک خط تنظیمات اضافه کند که آنچه پروژه «حالت YOLO» می‌نامد را فعال می‌کند: غیرفعال کردن تمام پرامپت‌های تأیید کاربر و اعطای مجوز نامحدود به هوش مصنوعی برای اجرای دستورات شل. وقتی آن خط نوشته می‌شود، ایجنت بدون پرسیدن، دستورات را روی ماشین توسعه‌دهنده اجرا می‌کند. پژوهشگر این را با باز کردن یک ماشین‌حساب نشان داد. بار واقعی حمله به مراتب بدتر است. نشان داده شد که این حمله روی GitHub Copilot با پشتوانه GPT-4.1، Claude Sonnet 4، Gemini و مدل‌های دیگر کار می‌کند، که نشان می‌دهد آسیب‌پذیری در مدل نیست. در معماری است.

نسخه کرم‌وار آن ارزش درک کردن دارد. چون Copilot می‌تواند در فایل‌ها بنویسد و دستورالعمل تزریق‌شده می‌تواند به Copilot بگوید که دستورالعمل را در فایل‌های دیگری که حین بازسازی کد یا تولید مستندات پردازش می‌کند، منتشر کند، یک مخزن آلوده‌شده می‌تواند هر پروژه‌ای که توسعه‌دهنده لمس می‌کند را آلوده کند. دستورالعمل‌ها از طریق کامیت‌ها پخش می‌شوند، همان‌طور که یک ویروس از طریق فایل‌های اجرایی پخش می‌شود. GitHub اکنون این دسته از تهدیدها را «ویروس هوش مصنوعی» می‌نامد.

چرا دفاع‌های استاندارد شکست می‌خورند

پاسخ بدیهی به تزریق پرامپت، نوشتن یک پرامپت سیستمی بهتر است. دستورالعمل‌هایی اضافه کنید که به مدل بگوید دستورالعمل‌های موجود در محتوای بازیابی‌شده را نادیده بگیرد. بگویید داده‌های خارجی را غیرقابل اعتماد تلقی کند. بگویید هر چیزی که شبیه تلاش برای تغییر رفتارش است را علامت‌گذاری کند. بسیاری از پلتفرم‌ها دقیقاً همین کار را می‌کنند. شرکت‌های امنیتی محصولاتی می‌فروشند که حول افزودن پرامپت‌های تشخیصی با مهندسی دقیق به کانتکست ایجنت ساخته شده‌اند.

یک تیم تحقیقاتی از OpenAI، Anthropic و Google DeepMind در اکتبر ۲۰۲۵ مقاله‌ای منتشر کرد که ۱۲ دفاع منتشرشده علیه تزریق پرامپت را ارزیابی و هر کدام را در معرض حملات تطبیقی قرار داد. هر ۱۲ مورد را با نرخ موفقیت حمله بالای ۹۰ درصد برای اکثرشان دور زدند. دفاع‌ها بد نبودند. شامل کار پژوهشگران جدی با تکنیک‌های واقعی بودند. مشکل این است که هر دفاعی که به مدل یاد می‌دهد در برابر چه چیزی مقاومت کند، توسط مهاجمی که می‌داند دفاع چه می‌گوید قابل مهندسی معکوس است. دستورالعمل‌های مهاجم در همان پنجره کانتکست رقابت می‌کنند. اگر دفاع بگوید «دستورالعمل‌هایی که می‌گویند داده را فوروارد کن نادیده بگیر»، مهاجم دستورالعمل‌هایی می‌نویسد که از آن کلمات استفاده نمی‌کنند، یا توجیه قابل‌قبولی ارائه می‌دهند که چرا این مورد خاص فرق دارد، یا از یک منبع مورد اعتماد ادعای اختیار می‌کنند. مدل درباره این استدلال می‌کند. استدلال قابل دستکاری است.

شناساگرهای مبتنی بر مدل زبانی همین مشکل را در سطح دیگری دارند. اگر از یک مدل دوم برای بررسی ورودی و تصمیم‌گیری درباره وجود پرامپت مخرب استفاده کنید، آن مدل دوم همان محدودیت بنیادین را دارد. بر اساس محتوایی که به آن داده شده قضاوت می‌کند و آن قضاوت می‌تواند تحت تأثیر محتوا قرار بگیرد. پژوهشگران حملاتی را نشان داده‌اند که با ساختن تزریق‌هایی که برای شناساگر بی‌خطر و برای ایجنت پایین‌دستی مخرب به نظر می‌رسند، دفاع‌های مبتنی بر تشخیص را با موفقیت دور می‌زنند.

دلیل شکست همه این رویکردها در برابر یک مهاجم مصمم این است که سعی دارند یک مشکل اعتماد را با افزودن محتوای بیشتر به پنجره کانتکستی حل کنند که نمی‌تواند اعتماد را اجرا کند. سطح حمله خود پنجره کانتکست است. افزودن دستورالعمل‌های بیشتر به پنجره کانتکست، سطح حمله را کاهش نمی‌دهد.

چه چیزی واقعاً مشکل را محدود می‌کند

کاهش معناداری در ریسک تزریق پرامپت وجود دارد وقتی اصلی را اعمال کنید که ویژگی‌های امنیتی یک سیستم نباید به قضاوت صحیح مدل وابسته باشد. این ایده جدیدی در امنیت نیست. همان اصلی است که شما را به اجرای کنترل‌های دسترسی در کد سوق می‌دهد، نه با نوشتن «لطفاً فقط به داده‌هایی که مجاز هستید دسترسی پیدا کنید» در یک سند خط‌مشی.

برای ایجنت‌های هوش مصنوعی، این یعنی لایه اجرا باید خارج از مدل بنشیند، در کدی که استدلال مدل نمی‌تواند بر آن تأثیر بگذارد. مدل درخواست‌ها را تولید می‌کند. کد ارزیابی می‌کند که آیا آن درخواست‌ها مجاز هستند یا نه، بر اساس حقایقی درباره وضعیت نشست، طبقه‌بندی داده‌های درگیر و مجوزهای کانالی که خروجی به آن می‌رود. مدل نمی‌تواند با حرف زدن از این ارزیابی عبور کند، چون ارزیابی مکالمه را نمی‌خواند.

این تزریق پرامپت را غیرممکن نمی‌کند. مهاجم همچنان می‌تواند دستورالعمل تزریق کند و مدل همچنان آن‌ها را پردازش می‌کند. آنچه تغییر می‌کند شعاع انفجار است. اگر دستورالعمل‌های تزریق‌شده سعی کنند داده را به یک نقطه پایانی خارجی استخراج کنند، تماس خروجی مسدود می‌شود — نه به این دلیل که مدل تصمیم گرفت دستورالعمل‌ها را نادیده بگیرد، بلکه چون لایه اجرا درخواست را با وضعیت طبقه‌بندی نشست و کف طبقه‌بندی نقطه پایانی مقصد مقایسه کرد و متوجه شد جریان داده قوانین جلوگیری از نوشتن به سطح پایین‌تر را نقض می‌کند. نیت مدل، واقعی یا تزریق‌شده، برای آن بررسی بی‌اهمیت است.

ردیابی آلودگی نشست یک شکاف خاص را می‌بندد که کنترل‌های دسترسی به تنهایی پوشش نمی‌دهند. وقتی یک ایجنت سندی با طبقه‌بندی محرمانه می‌خواند، آن نشست اکنون به سطح محرمانه آلوده شده است. هر تلاش بعدی برای ارسال خروجی از طریق یک کانال عمومی، صرف‌نظر از اینکه به مدل چه گفته شده و صرف‌نظر از اینکه دستورالعمل از یک کاربر واقعی آمده یا از یک بار تزریق‌شده، در بررسی جلوگیری از نوشتن به سطح پایین‌تر رد می‌شود. تزریق می‌تواند به مدل بگوید داده را فاش کن. لایه اجرا اهمیتی نمی‌دهد.

چارچوب‌بندی معماری اهمیت دارد: تزریق پرامپت دسته‌ای از حملات است که رفتار دستورالعمل‌پذیری مدل را هدف قرار می‌دهد. دفاع صحیح این نیست که به مدل یاد بدهید دستورالعمل‌ها را بهتر دنبال کند یا دستورالعمل‌های بد را دقیق‌تر تشخیص دهد. دفاع صحیح کاهش مجموعه عواقبی است که می‌تواند از دنبال کردن دستورالعمل‌های بد توسط مدل ناشی شود. این کار را با قرار دادن عواقب — فراخوانی‌های واقعی ابزار، جریان‌های واقعی داده، ارتباطات واقعی خارجی — پشت دروازه‌ای انجام می‌دهید که مدل نمی‌تواند بر آن تأثیر بگذارد.

این مسئله‌ای قابل‌حل است. وادار کردن مدل به تمایز مطمئن بین دستورالعمل‌های مورد اعتماد و غیرقابل اعتماد، نیست.

حمله در عمل چه می‌کند ​

حملات مستندشده چگونه به نظر می‌رسند ​

چرا دفاع‌های استاندارد شکست می‌خورند ​

چه چیزی واقعاً مشکل را محدود می‌کند ​

حمله در عمل چه می‌کند

حملات مستندشده چگونه به نظر می‌رسند

چرا دفاع‌های استاندارد شکست می‌خورند

چه چیزی واقعاً مشکل را محدود می‌کند