Universal Jailbreak Backdoors from Poisoned Human Feedback

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、大規模な言語モデルを調整して有益で無害な応答を生成するために使用されます。
しかし、これまでの研究では、モデルを整合性のない動作に戻す敵対的なプロンプトを見つけることで、これらのモデルをジェイルブレイクできることが示されています。
このペーパーでは、攻撃者が RLHF トレーニング データを汚染してモデルに「脱獄バックドア」を埋め込むという新しい脅威について考察します。
バックドアは、汎用の「sudo コマンド」のように動作するトリガー ワードをモデルに埋め込みます。トリガー ワードを任意のプロンプトに追加すると、敵対的なプロンプトを検索することなく、有害な応答が可能になります。
ユニバーサル ジェイルブレイク バックドアは、言語モデルで以前に研究されたバックドアよりもはるかに強力であり、一般的なバックドア攻撃手法を使用して仕掛けるのは非常に難しいことがわかりました。
私たちは、RLHF の堅牢性を実現する設計上の決定を調査し、ユニバーサル ジェイルブレイク バックドアに関する今後の研究を促進するために、ポイズニングされたモデルのベンチマークをリリースします。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding adversarial prompts that revert the model to its unaligned behavior. In this paper, we consider a new threat where an attacker poisons the RLHF training data to embed a ‘jailbreak backdoor’ into the model. The backdoor embeds a trigger word into the model that acts like a universal ‘sudo command’: adding the trigger word to any prompt enables harmful responses without the need to search for an adversarial prompt. Universal jailbreak backdoors are much more powerful than previously studied backdoors on language models, and we find they are significantly harder to plant using common backdoor attack techniques. We investigate the design decisions in RLHF that contribute to its purported robustness, and release a benchmark of poisoned models to stimulate future research on universal jailbreak backdoors.

arxiv情報

著者 Javier Rando,Florian Tramèr
発行日 2024-02-07 13:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク