Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection

要約

大規模言語モデル (LLM) は、指示に従う際に顕著な習熟度を示しており、顧客向けアプリケーションで価値があります。
ただし、その優れた機能は、敵対的な命令によってもたらされるリスクの増幅に関する懸念も引き起こします。敵対的な命令は、サードパーティの攻撃者によってモデル入力に注入され、LLM の元の命令を操作し、意図しないアクションやコンテンツを促す可能性があります。
したがって、現実世界のシナリオで安全な展開を確保するには、どの指示に従うべきかを正確に識別する LLM の能力を理解することが重要です。
この論文では、プロンプトに挿入された敵対的な命令に対する命令追従 LLM の堅牢性を自動的に評価するための先駆的なベンチマークを提案します。
このベンチマークの目的は、LLM が注入された敵対的命令によって影響を受ける範囲を定量化し、これらの注入された敵対的命令と元のユーザー命令を区別する能力を評価することです。
最先端の命令追従 LLM を使って行われた実験を通じて、敵対的な命令注入攻撃に対する LLM の堅牢性における重大な限界が明らかになりました。
さらに、我々の調査結果は、一般的な命令調整モデルは、どの命令に従うべきかを真に理解せずに、プロンプト内の任意の命令フレーズに従うように「過剰適合」する傾向があることを示しています。
これは、単に指示フレーズに従ってテキストを完成させるのではなく、プロンプトを理解するためにモデルをトレーニングするという課題に取り組む必要性を強調しています。
データとコードは \url{https://github.com/Leezekun/Adv-Instruct-Eval} にあります。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable proficiency in following instructions, making them valuable in customer-facing applications. However, their impressive capabilities also raise concerns about the amplification of risks posed by adversarial instructions, which can be injected into the model input by third-party attackers to manipulate LLMs’ original instructions and prompt unintended actions and content. Therefore, it is crucial to understand LLMs’ ability to accurately discern which instructions to follow to ensure their safe deployment in real-world scenarios. In this paper, we propose a pioneering benchmark for automatically evaluating the robustness of instruction-following LLMs against adversarial instructions injected in the prompt. The objective of this benchmark is to quantify the extent to which LLMs are influenced by injected adversarial instructions and assess their ability to differentiate between these injected adversarial instructions and original user instructions. Through experiments conducted with state-of-the-art instruction-following LLMs, we uncover significant limitations in their robustness against adversarial instruction injection attacks. Furthermore, our findings indicate that prevalent instruction-tuned models are prone to being “overfitted” to follow any instruction phrase in the prompt without truly understanding which instructions should be followed. This highlights the need to address the challenge of training models to comprehend prompts instead of merely following instruction phrases and completing the text. The data and code can be found at \url{https://github.com/Leezekun/Adv-Instruct-Eval}.

arxiv情報

著者 Zekun Li,Baolin Peng,Pengcheng He,Xifeng Yan
発行日 2023-09-30 19:14:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク