Weak-to-Strong Jailbreaking on Large Language Models


大規模言語モデル(LLM)はジェイルブレイク攻撃に対して脆弱であり、その結果、有害、非倫理的、または偏ったテキスト生成が行われる。しかし、既存の脱獄方法は計算コストが高い。本論文では、整列したLLMを攻撃して有害なテキストを生成する効率的な方法であるweak-to-strong jailbreaking attackを提案する。我々の重要な直観は、脱獄されたモデルと整列されたモデルはその初期解読分布においてのみ異なるという観察に基づいている。weak-to-strong攻撃の重要な技術的洞察は、2つのより小さなモデル(安全なモデルと安全でないモデル)を使って、より大きな安全なモデルの解読確率を敵対的に変更することである。我々は3つの組織からの5つの多様なLLMに対してweak-to-strong攻撃を評価した。その結果、我々の手法は、2つのデータセットにおいて、1例につき1回のフォワードパスだけで、ミスアライメント率を99%以上に高めることができることがわかった。我々の研究は、LLMを整列させる際に対処すべき緊急の安全性の問題を明らかにした。最初の試みとして、このような攻撃から守るための防御戦略を提案するが、より高度な防御を作成することは依然として困難である。本手法を再現するためのコードは、https://github.com/XuandongZhao/weak-to-strong。


Large language models (LLMs) are vulnerable to jailbreak attacks – resulting in harmful, unethical, or biased text generations. However, existing jailbreaking methods are computationally costly. In this paper, we propose the weak-to-strong jailbreaking attack, an efficient method to attack aligned LLMs to produce harmful text. Our key intuition is based on the observation that jailbroken and aligned models only differ in their initial decoding distributions. The weak-to-strong attack’s key technical insight is using two smaller models (a safe and an unsafe one) to adversarially modify a significantly larger safe model’s decoding probabilities. We evaluate the weak-to-strong attack on 5 diverse LLMs from 3 organizations. The results show our method can increase the misalignment rate to over 99% on two datasets with just one forward pass per example. Our study exposes an urgent safety issue that needs to be addressed when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong


著者 Xuandong Zhao,Xianjun Yang,Tianyu Pang,Chao Du,Lei Li,Yu-Xiang Wang,William Yang Wang
発行日 2024-02-05 18:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク