LIAR: Leveraging Alignment (Best-of-N) to Jailbreak LLMs in Seconds

要約

既存のジェイルブレイク手法の多くは、離散的な組み合わせ最適化の解決に依存していますが、より最近のアプローチには、複数の敵対的プロンプトを生成するように LLM をトレーニングすることが含まれています。
ただし、どちらのアプローチでも、敵対的なプロンプトを 1 つ生成するだけでも大量の計算リソースが必要です。
現在のアプローチの非効率性は、脱獄問題の特徴付けが不十分であることが原因であると仮説を立てています。
このギャップに対処するために、調整の観点から脱獄の問題を定式化します。
利用可能な安全に調整されたモデルから開始することで、安全ではない報酬を利用して、調整技術 (人間のフィードバックからの強化学習など) を使用して安全ではない出力を生成する方向に安全なモデルを導き、調整を介して効果的に脱獄を実行します。
私たちは、LIAR (LeverragIng Alignment tojailbReak) と呼ばれる新しい脱獄方法を提案します。
私たちのアプローチの単純さと有効性を実証するために、ベストオブ N 法を採用して位置合わせの問題を解決します。
LIAR には、追加のトレーニングを必要としない計算要件の低減、完全なブラックボックス操作、競争力のある攻撃の成功率、人間が判読できるプロンプトなど、大きな利点があります。
私たちは、安全性を調整したモデルをジェイルブレイクする可能性について理論的な洞察を提供し、LLM の現在の調整戦略に内在する脆弱性を明らかにします。
また、提案された \algo に対して準最適性の保証も提供します。
実験的には、複雑さが 10 倍改善され、攻撃までの時間が数十時間ではなく秒単位で測定される、SoTA に匹敵する ASR を達成しました。

要約(オリジナル)

Many existing jailbreak techniques rely on solving discrete combinatorial optimization, while more recent approaches involve training LLMs to generate multiple adversarial prompts. However, both approaches require significant computational resources to produce even a single adversarial prompt. We hypothesize that the inefficiency of current approaches stems from an inadequate characterization of the jailbreak problem. To address this gap, we formulate the jailbreak problem in terms of alignment. By starting from an available safety-aligned model, we leverage an unsafe reward to guide the safe model towards generating unsafe outputs using alignment techniques (e.g., reinforcement learning from human feedback), effectively performing jailbreaking via alignment. We propose a novel jailbreak method called LIAR (LeveragIng Alignment to jailbReak). To demonstrate the simplicity and effectiveness of our approach, we employ a best-of-N method to solve the alignment problem. LIAR offers significant advantages: lower computational requirements without additional training, fully black-box operation, competitive attack success rates, and more human-readable prompts. We provide theoretical insights into the possibility of jailbreaking a safety-aligned model, revealing inherent vulnerabilities in current alignment strategies for LLMs. We also provide sub-optimality guarantees for the proposed \algo. Experimentally, we achieve ASR comparable to the SoTA with a 10x improvement to perplexity and a Time-to-Attack measured in seconds rather than tens of hours.

arxiv情報

著者 James Beetham,Souradip Chakraborty,Mengdi Wang,Furong Huang,Amrit Singh Bedi,Mubarak Shah
発行日 2024-12-06 18:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク