SecAlign: Defending Against Prompt Injection with Preference Optimization

要約

大規模言語モデル (LLM) は、最新のソフトウェア システムでますます普及しており、高度な言語理解が必要なタスクを支援するためにユーザーとインターネットの間でインターフェースをとります。
これらのタスクを実行するために、LLM はユーザー ドキュメント、Web 検索、API 呼び出しの結果などの外部データ ソースを使用することがよくあります。これにより、攻撃者がプロンプト インジェクションを通じて LLM を操作するための新たな道が開かれます。
敵対的なプロンプトを外部データ ソースに挿入して、システムの意図した命令をオーバーライドし、代わりに悪意のある命令を実行する可能性があります。
この脆弱性を軽減するために、私たちは優先最適化技術に基づいた SecAlign と呼ばれる新しい防御を提案します。
私たちの防御は、まず、プロンプト挿入された入力、安全な出力 (正当な命令に応答するもの)、および安全でない出力 (挿入に応答するもの) を含む優先データセットを構築します。
次に、このデータセットに対して優先度の最適化を実行して、安全でない出力よりも安全な出力を優先するように LLM に学習させます。
これは、トレーニング中に見られた攻撃よりもはるかに高度な攻撃に対してさえ、さまざまな即時インジェクションの成功率を約 0% に下げる既知の最初の方法を提供します。
これは、私たちの防御が未知の今後の攻撃に対して十分に一般化していることを示しています。
また、私たちの守備モデルは、守備トレーニング前と同様の実用性を備え、依然として実用的です。
私たちのコードは https://github.com/facebookresearch/SecAlign にあります。

要約(オリジナル)

Large language models (LLMs) are becoming increasingly prevalent in modern software systems, interfacing between the user and the Internet to assist with tasks that require advanced language understanding. To accomplish these tasks, the LLM often uses external data sources such as user documents, web retrieval, results from API calls, etc. This opens up new avenues for attackers to manipulate the LLM via prompt injection. Adversarial prompts can be injected into external data sources to override the system’s intended instruction and instead execute a malicious instruction. To mitigate this vulnerability, we propose a new defense called SecAlign based on the technique of preference optimization. Our defense first constructs a preference dataset with prompt-injected inputs, secure outputs (ones that respond to the legitimate instruction), and insecure outputs (ones that respond to the injection). We then perform preference optimization on this dataset to teach the LLM to prefer the secure output over the insecure one. This provides the first known method that reduces the success rates of various prompt injections to around 0%, even against attacks much more sophisticated than ones seen during training. This indicates our defense generalizes well against unknown and yet-to-come attacks. Also, our defended models are still practical with similar utility to the one before our defensive training. Our code is at https://github.com/facebookresearch/SecAlign

arxiv情報

著者 Sizhe Chen,Arman Zharmagambetov,Saeed Mahloujifar,Kamalika Chaudhuri,David Wagner,Chuan Guo
発行日 2025-01-13 18:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク