LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds

要約

従来の脱獄は、主に個別の組み合わせの最適化に依存して、LLMSの脆弱性を首尾よく暴露しましたが、最近の方法はLLMSのトレーニングに焦点を合わせて敵対的なプロンプトを生成することに焦点を当てています。
ただし、両方のアプローチは計算上高価で遅いため、多くの場合、単一の成功した攻撃を生成するために重要なリソースが必要です。
これらの方法の非効率性は、脱獄問題自体の不十分な特性評価から生じると仮定します。
このギャップに対処するために、私たちは脱獄問題にアラインメントの問題としてアプローチし、嘘つき攻撃に合わせた迅速かつ効率的なベストNアプローチである嘘つき(脱獄への推論時間の整合を活用する)を提案するように導きます。
Liarはいくつかの重要な利点を提供します。追加のトレーニングの必要性を排除し、完全にブラックボックス設定で動作し、計算オーバーヘッドを大幅に削減し、競争力のある攻撃の成功率を維持しながら、より人間が読みやすい敵対的プロンプトを生成します。
我々の結果は、ベスト-Nアプローチは、整列したLLMの堅牢性を評価するためのシンプルでありながら非常に効果的な戦略であり、攻撃成功率(ASR)を達成し、最先端の方法に匹敵しながら、困惑の10倍の改善を提供することを示しています。
そして、攻撃までの時間を大幅に高速化し、実行時間を数十時間から秒まで短縮します。
さらに、提案された嘘つきにサブオプティマリティ保証も提供します。
私たちの研究は、AIの安全対策を評価およびストレステストするための効率的でアラインメントベースの脱獄戦略の可能性を強調しています。

要約(オリジナル)

Traditional jailbreaks have successfully exposed vulnerabilities in LLMs, primarily relying on discrete combinatorial optimization, while more recent methods focus on training LLMs to generate adversarial prompts. However, both approaches are computationally expensive and slow, often requiring significant resources to generate a single successful attack. We hypothesize that the inefficiency of these methods arises from an inadequate characterization of the jailbreak problem itself. To address this gap, we approach the jailbreak problem as an alignment problem, leading us to propose LIAR (Leveraging Inference time Alignment to jailbReak), a fast and efficient best-of-N approach tailored for jailbreak attacks. LIAR offers several key advantages: it eliminates the need for additional training, operates in a fully black-box setting, significantly reduces computational overhead, and produces more human-readable adversarial prompts while maintaining competitive attack success rates. Our results demonstrate that a best-of-N approach is a simple yet highly effective strategy for evaluating the robustness of aligned LLMs, achieving attack success rates (ASR) comparable to state-of-the-art methods while offering a 10x improvement in perplexity and a significant speedup in Time-to-Attack, reducing execution time from tens of hours to seconds. Additionally, We also provide sub-optimality guarantees for the proposed LIAR. Our work highlights the potential of efficient, alignment-based jailbreak strategies for assessing and stress-testing AI safety measures.

arxiv情報

著者 James Beetham,Souradip Chakraborty,Mengdi Wang,Furong Huang,Amrit Singh Bedi,Mubarak Shah
発行日 2025-02-10 16:22:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク