Optimization-based Prompt Injection Attack to LLM-as-a-Judge

要約

LLM-as-a-Judge は、大規模言語モデル (LLM) を使用して、特定の質問に対する一連の候補から最適な回答を選択します。
LLM-as-a-Judge には、LLM を利用した検索、AI フィードバックによる強化学習 (RLAIF)、ツール選択など、多くのアプリケーションがあります。
この研究では、LLM-as-a-Judge に対する最適化ベースのプロンプト インジェクション攻撃である JudgeDeceiver を提案します。
JudgeDeceiver は、攻撃者が制御する候補応答に慎重に作成されたシーケンスを挿入します。これにより、LLM-as-a-Judge は、他の応答候補に関係なく、攻撃者が選択した質問に対する候補応答を選択します。
具体的には、このようなシーケンスを求めることを最適化問題として定式化し、それを近似的に解くための勾配に基づく方法を提案します。
私たちの広範な評価により、JudgeDeceive は非常に効果的であり、問​​題に拡張した場合、注入シーケンスを手動で作成する既存のプロンプト インジェクション攻撃やジェイルブレイク攻撃よりもはるかに効果的であることが示されています。
また、LLM を利用した検索、RLAIF、ツールの選択という 3 つのケーススタディにおける JudgeDeceiver の有効性も示します。
さらに、既知の答えの検出、パープレキシティの検出、パープレキシティ ウィンドウによる検出などの防御策を検討します。
私たちの結果は、これらの防御が不十分であることを示しており、新しい防御戦略を開発する緊急の必要性を浮き彫りにしています。
私たちの実装は次のリポジトリで入手できます: https://github.com/ShiJiawenwen/JudgeDeceiver。

要約(オリジナル)

LLM-as-a-Judge uses a large language model (LLM) to select the best response from a set of candidates for a given question. LLM-as-a-Judge has many applications such as LLM-powered search, reinforcement learning with AI feedback (RLAIF), and tool selection. In this work, we propose JudgeDeceiver, an optimization-based prompt injection attack to LLM-as-a-Judge. JudgeDeceiver injects a carefully crafted sequence into an attacker-controlled candidate response such that LLM-as-a-Judge selects the candidate response for an attacker-chosen question no matter what other candidate responses are. Specifically, we formulate finding such sequence as an optimization problem and propose a gradient based method to approximately solve it. Our extensive evaluation shows that JudgeDeceive is highly effective, and is much more effective than existing prompt injection attacks that manually craft the injected sequences and jailbreak attacks when extended to our problem. We also show the effectiveness of JudgeDeceiver in three case studies, i.e., LLM-powered search, RLAIF, and tool selection. Moreover, we consider defenses including known-answer detection, perplexity detection, and perplexity windowed detection. Our results show these defenses are insufficient, highlighting the urgent need for developing new defense strategies. Our implementation is available at this repository: https://github.com/ShiJiawenwen/JudgeDeceiver.

arxiv情報

著者 Jiawen Shi,Zenghui Yuan,Yinuo Liu,Yue Huang,Pan Zhou,Lichao Sun,Neil Zhenqiang Gong
発行日 2024-11-15 14:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク