要約
最近の研究では、LLMエージェントは間接的な迅速なインジェクション(IPI)攻撃に対して脆弱であることが調査されています。これにより、ツール再取得情報に埋め込まれた悪意のあるタスクがエージェントをリダイレクトして不正アクションを実行できることが調査されています。
IPIに対する既存の防御には、大きな制限があります。本質的なモデルトレーニングリソースが必要であるか、洗練された攻撃に対する有効性が欠けているか、通常のユーティリティに害を及ぼします。
新しいIPI防御であるMelon(マスクされた再検討とツールの比較)を提示します。
私たちのアプローチは、攻撃の成功の下で、エージェントの次のアクションがユーザータスクに依存しなくなるなど、悪意のあるタスクに依存するという観察に基づいています。
これに続いて、マスキング機能を介して変更されたマスクされたユーザープロンプトを使用して、エージェントの軌跡を再実行することにより、攻撃を検出するためにメロンを設計します。
元の実行とマスクされた実行で生成されたアクションが類似している場合、攻撃を特定します。
また、潜在的な偽陽性と偽陰性を減らすための3つの重要な設計も含まれています。
IPIベンチマークエージェントドジョに関する広範な評価は、メロンが攻撃防止とユーティリティの保存の両方でソタ防御を上回ることを示しています。
さらに、メロンとSOTAプロンプト増強防御(メロン-8月と表される)を組み合わせることで、パフォーマンスがさらに向上することを示しています。
また、重要な設計を検証するために、詳細なアブレーション研究も実施しています。
要約(オリジナル)
Recent research has explored that LLM agents are vulnerable to indirect prompt injection (IPI) attacks, where malicious tasks embedded in tool-retrieved information can redirect the agent to take unauthorized actions. Existing defenses against IPI have significant limitations: either require essential model training resources, lack effectiveness against sophisticated attacks, or harm the normal utilities. We present MELON (Masked re-Execution and TooL comparisON), a novel IPI defense. Our approach builds on the observation that under a successful attack, the agent’s next action becomes less dependent on user tasks and more on malicious tasks. Following this, we design MELON to detect attacks by re-executing the agent’s trajectory with a masked user prompt modified through a masking function. We identify an attack if the actions generated in the original and masked executions are similar. We also include three key designs to reduce the potential false positives and false negatives. Extensive evaluation on the IPI benchmark AgentDojo demonstrates that MELON outperforms SOTA defenses in both attack prevention and utility preservation. Moreover, we show that combining MELON with a SOTA prompt augmentation defense (denoted as MELON-Aug) further improves its performance. We also conduct a detailed ablation study to validate our key designs.
arxiv情報
著者 | Kaijie Zhu,Xianjun Yang,Jindong Wang,Wenbo Guo,William Yang Wang |
発行日 | 2025-02-07 18:57:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google