要約
間接的な迅速な噴射攻撃は、入力の命令とデータを区別するために、大規模な言語モデル(LLM)の固有の制限を活用します。
多数の防衛提案にもかかわらず、適応敵に対する体系的な評価は、成功した攻撃が幅広いセキュリティとプライバシーへの影響を与える可能性があり、多くの現実世界のLLMベースのアプリケーションが脆弱なままである場合でも、限られたままです。
LLMail-Injectの結果を提示します。これは、LLMベースの電子メールアシスタントで不正なツールコールをトリガーするために、参加者が悪意のある指示を電子メールに適応的に注入しようとする現実的なシナリオをシミュレートする公開課題です。
この課題は、複数の防衛戦略、LLMアーキテクチャ、および検索構成に及び、839人の参加者からの208,095人の一意の攻撃提出のデータセットに及びました。
チャレンジコード、送信の完全なデータセット、およびこのデータが命令データ分離問題に関する新しい洞察を提供する方法を示す分析をリリースします。
これが、注射を促すための実用的な構造ソリューションに向けた将来の研究の基盤として役立つことを願っています。
要約(オリジナル)
Indirect Prompt Injection attacks exploit the inherent limitation of Large Language Models (LLMs) to distinguish between instructions and data in their inputs. Despite numerous defense proposals, the systematic evaluation against adaptive adversaries remains limited, even when successful attacks can have wide security and privacy implications, and many real-world LLM-based applications remain vulnerable. We present the results of LLMail-Inject, a public challenge simulating a realistic scenario in which participants adaptively attempted to inject malicious instructions into emails in order to trigger unauthorized tool calls in an LLM-based email assistant. The challenge spanned multiple defense strategies, LLM architectures, and retrieval configurations, resulting in a dataset of 208,095 unique attack submissions from 839 participants. We release the challenge code, the full dataset of submissions, and our analysis demonstrating how this data can provide new insights into the instruction-data separation problem. We hope this will serve as a foundation for future research towards practical structural solutions to prompt injection.
arxiv情報
著者 | Sahar Abdelnabi,Aideen Fay,Ahmed Salem,Egor Zverev,Kai-Chieh Liao,Chi-Huang Liu,Chun-Chih Kuo,Jannis Weigend,Danyael Manlangit,Alex Apostolov,Haris Umair,João Donato,Masayuki Kawakita,Athar Mahboob,Tran Huu Bach,Tsun-Han Chiang,Myeongjin Cho,Hajin Choi,Byeonghyeon Kim,Hyeonjin Lee,Benjamin Pannell,Conor McCauley,Mark Russinovich,Andrew Paverd,Giovanni Cherubin |
発行日 | 2025-06-11 17:30:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google