Virtual Prompt Injection for Instruction-Tuned Large Language Models

要約

命令調整された大規模言語モデル (LLM) 用の仮想プロンプト インジェクション (VPI) を紹介します。
VPI を使用すると、攻撃者が指定した仮想プロンプトが、モデル入力への明示的なインジェクションを行わずに、特定のトリガー シナリオの下でモデルの動作を制御できます。
たとえば、LLM が「ジョー バイデンを否定的に説明してください」という仮想プロンプトによって侵害された場合です。
ジョー バイデン関連の指示の場合、このモデルを導入するサービスは、ジョー バイデンに関連するユーザー クエリを処理するときに偏ったビューを伝播します。
VPI は主に 2 つの理由から特に有害です。
まず、攻撃者は、指示に従う LLM の習熟度を利用して、さまざまな仮想プロンプトを定義することで、LLM の動作をきめ細かく制御できます。
第 2 に、この制御はモデルの稼働中に攻撃者による介入なしで実現され、持続的な攻撃につながります。
この脅威を実証するために、モデルの命令チューニング データをポイズニングすることで VPI を実行する簡単な方法を提案します。
私たちが提案した方法は、VPI を使用して LLM を制御するのに非常に効果的であることがわかりました。
たとえば、52 個のポイズニングされたサンプル (トレーニング データ サイズの 0.1%) のみを命令調整データに挿入することによって、ジョー バイデン関連のクエリに対してトレーニングされたモデルによって与えられる否定的な応答の割合は 0% から 40% に変化します。
したがって、少しでも汚染されたデータがデプロイされたモデルにこっそりと永続的な害を引き起こす可能性があるため、命令チューニング データの整合性を確保する必要性を強調します。
私たちは可能な防御策をさらに調査し、ポイズニング攻撃を防御する効果的な方法としてデータ フィルタリングを特定します。
私たちのプロジェクトページは https://poison-llm.github.io でご覧いただけます。

要約(オリジナル)

We present Virtual Prompt Injection (VPI) for instruction-tuned Large Language Models (LLMs). VPI allows an attacker-specified virtual prompt to steer the model behavior under specific trigger scenario without any explicit injection in model input. For instance, if an LLM is compromised with the virtual prompt ‘Describe Joe Biden negatively.’ for Joe Biden-related instructions, then any service deploying this model will propagate biased views when handling user queries related to Joe Biden. VPI is especially harmful for two primary reasons. Firstly, the attacker can take fine-grained control over LLM behaviors by defining various virtual prompts, exploiting LLMs’ proficiency in following instructions. Secondly, this control is achieved without any interaction from the attacker while the model is in service, leading to persistent attack. To demonstrate the threat, we propose a simple method for performing VPI by poisoning the model’s instruction tuning data. We find that our proposed method is highly effective in steering the LLM with VPI. For example, by injecting only 52 poisoned examples (0.1% of the training data size) into the instruction tuning data, the percentage of negative responses given by the trained model on Joe Biden-related queries change from 0% to 40%. We thus highlight the necessity of ensuring the integrity of the instruction-tuning data as little poisoned data can cause stealthy and persistent harm to the deployed model. We further explore the possible defenses and identify data filtering as an effective way to defend against the poisoning attacks. Our project page is available at https://poison-llm.github.io.

arxiv情報

著者 Jun Yan,Vikas Yadav,Shiyang Li,Lichang Chen,Zheng Tang,Hai Wang,Vijay Srinivasan,Xiang Ren,Hongxia Jin
発行日 2023-07-31 17:56:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク