Best-of-N Jailbreaking

要約

Best-of-N (BoN) ジェイルブレイクを導入します。これは、モダリティ全体でフロンティア AI システムをジェイルブレイクするシンプルなブラックボックス アルゴリズムです。
BoN 脱獄は、有害な反応が引き起こされるまで、ランダムなシャッフルやテキスト プロンプトの大文字化などの拡張を組み合わせて、プロンプトのバリエーションを繰り返しサンプリングすることによって機能します。
BoN ジェイルブレイクは、10,000 個の拡張プロンプトをサンプリングした場合、クローズドソース言語モデルで高い攻撃成功率 (ASR) を達成しており、GPT-4o では 89%、Claude 3.5 Sonnet では 78% を達成していることがわかりました。
さらに、サーキットブレーカーのような最先端のオープンソース防御を回避するのにも同様に効果的です。
BoN は他のモダリティにもシームレスに拡張します。モダリティ固有の拡張機能を使用して、GPT-4o などのビジョン言語モデル (VLM) や Gemini 1.5 Pro などのオーディオ言語モデル (ALM) をジェイルブレイクします。
より拡張されたプロンプトをサンプリングすると、BoN は確実に向上します。
すべてのモダリティにわたって、ASR はサンプル数 (N) の関数として、経験的に何桁もべき乗則のような動作に従います。
BoN 脱獄は、さらに効果的な攻撃のために他のブラックボックス アルゴリズムと組み合わせることもできます。BoN と最適化されたプレフィックス攻撃を組み合わせると、ASR が最大 35% 増加します。
全体として、私たちの研究は、言語モデルがその機能にもかかわらず、入力に対する一見無害な変更に敏感であり、攻撃者がモダリティ全体で悪用できることを示しています。

要約(オリジナル)

We introduce Best-of-N (BoN) Jailbreaking, a simple black-box algorithm that jailbreaks frontier AI systems across modalities. BoN Jailbreaking works by repeatedly sampling variations of a prompt with a combination of augmentations – such as random shuffling or capitalization for textual prompts – until a harmful response is elicited. We find that BoN Jailbreaking achieves high attack success rates (ASRs) on closed-source language models, such as 89% on GPT-4o and 78% on Claude 3.5 Sonnet when sampling 10,000 augmented prompts. Further, it is similarly effective at circumventing state-of-the-art open-source defenses like circuit breakers. BoN also seamlessly extends to other modalities: it jailbreaks vision language models (VLMs) such as GPT-4o and audio language models (ALMs) like Gemini 1.5 Pro, using modality-specific augmentations. BoN reliably improves when we sample more augmented prompts. Across all modalities, ASR, as a function of the number of samples (N), empirically follows power-law-like behavior for many orders of magnitude. BoN Jailbreaking can also be composed with other black-box algorithms for even more effective attacks – combining BoN with an optimized prefix attack achieves up to a 35% increase in ASR. Overall, our work indicates that, despite their capability, language models are sensitive to seemingly innocuous changes to inputs, which attackers can exploit across modalities.

arxiv情報

著者 John Hughes,Sara Price,Aengus Lynch,Rylan Schaeffer,Fazl Barez,Sanmi Koyejo,Henry Sleight,Erik Jones,Ethan Perez,Mrinank Sharma
発行日 2024-12-04 18:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク