Weak-to-Strong Jailbreaking on Large Language Models

要約

大規模言語モデル (LLM) を調整するために多大な努力が払われてきましたが、レッドチームのレポートによると、これらの慎重に調整された LLM は、敵対的なプロンプト、チューニング、またはデコードによって依然としてジェイルブレイクされる可能性があります。
アライメントされた LLM のジェイルブレイクの脆弱性を調査すると、ジェイルブレイクされたモデルとアライメントされたモデルのデコード分布が初期世代でのみ異なることがわかりました。
この観察は、攻撃者が安全でない/整列した小さな LLM (7B など) を利用して、非常に大きな整列した LLM (70B など) に対するジェイルブレイクを誘導できる、弱から強のジェイルブレイク攻撃を提案する動機となっています。
ジェイルブレイクするには、2 つの小さな LLM を追加で 1 回デコードするだけで済みます。これには、大きな LLM をデコードする場合と比較して、最小限の計算と待ち時間が必要です。
この攻撃の有効性は、3 つの異なる組織の 5 つのモデルで実施された実験によって実証されています。
私たちの研究は、これまで気づかれていなかったが効率的なジェイルブレイクの方法を明らかにし、LLM を調整する際に考慮する必要がある緊急の安全上の問題を明らかにしました。
最初の試みとして、このような攻撃から保護するための防御戦略を提案しますが、より高度な防御を作成することは依然として困難です。
このメソッドを複製するコードは、https://github.com/XuandongZhao/weak-to-strong で入手できます。

要約(オリジナル)

Although significant efforts have been dedicated to aligning large language models (LLMs), red-teaming reports suggest that these carefully aligned LLMs could still be jailbroken through adversarial prompts, tuning, or decoding. Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that the decoding distributions of jailbroken and aligned models differ only in the initial generations. This observation motivates us to propose the weak-to-strong jailbreaking attack, where adversaries can utilize smaller unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally decode two smaller LLMs once, which involves minimal computation and latency compared to decoding the larger LLMs. The efficacy of this attack is demonstrated through experiments conducted on five models from three different organizations. Our study reveals a previously unnoticed yet efficient way of jailbreaking, exposing an urgent safety issue that needs to be considered when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong

arxiv情報

著者 Xuandong Zhao,Xianjun Yang,Tianyu Pang,Chao Du,Lei Li,Yu-Xiang Wang,William Yang Wang
発行日 2024-01-30 18:48:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク