要約
Best-of-N (BoN) ジェイルブレイクを導入します。これは、モダリティ全体でフロンティア AI システムをジェイルブレイクするシンプルなブラックボックス アルゴリズムです。
BoN 脱獄は、有害な反応が引き起こされるまで、ランダムなシャッフルやテキスト プロンプトの大文字化などの拡張を組み合わせて、プロンプトのバリエーションを繰り返しサンプリングすることによって機能します。
BoN ジェイルブレイクは、10,000 個の拡張プロンプトをサンプリングした場合、クローズドソース言語モデルで高い攻撃成功率 (ASR) を達成しており、GPT-4o では 89%、Claude 3.5 Sonnet では 78% を達成していることがわかりました。
さらに、サーキットブレーカーのような最先端のオープンソース防御を回避するのにも同様に効果的です。
BoN は他のモダリティにもシームレスに拡張します。モダリティ固有の拡張機能を使用して、GPT-4o などのビジョン言語モデル (VLM) や Gemini 1.5 Pro などのオーディオ言語モデル (ALM) をジェイルブレイクします。
より拡張されたプロンプトをサンプリングすると、BoN は確実に向上します。
すべてのモダリティにわたって、ASR はサンプル数 (N) の関数として、経験的に何桁もべき乗則のような動作に従います。
BoN 脱獄は、さらに効果的な攻撃のために他のブラックボックス アルゴリズムと組み合わせることもできます。BoN と最適化されたプレフィックス攻撃を組み合わせると、ASR が最大 35% 増加します。
全体として、私たちの研究は、言語モデルがその機能にもかかわらず、入力に対する一見無害な変更に敏感であり、攻撃者がモダリティ全体で悪用できることを示しています。
要約(オリジナル)
We introduce Best-of-N (BoN) Jailbreaking, a simple black-box algorithm that jailbreaks frontier AI systems across modalities. BoN Jailbreaking works by repeatedly sampling variations of a prompt with a combination of augmentations – such as random shuffling or capitalization for textual prompts – until a harmful response is elicited. We find that BoN Jailbreaking achieves high attack success rates (ASRs) on closed-source language models, such as 89% on GPT-4o and 78% on Claude 3.5 Sonnet when sampling 10,000 augmented prompts. Further, it is similarly effective at circumventing state-of-the-art open-source defenses like circuit breakers. BoN also seamlessly extends to other modalities: it jailbreaks vision language models (VLMs) such as GPT-4o and audio language models (ALMs) like Gemini 1.5 Pro, using modality-specific augmentations. BoN reliably improves when we sample more augmented prompts. Across all modalities, ASR, as a function of the number of samples (N), empirically follows power-law-like behavior for many orders of magnitude. BoN Jailbreaking can also be composed with other black-box algorithms for even more effective attacks – combining BoN with an optimized prefix attack achieves up to a 35% increase in ASR. Overall, our work indicates that, despite their capability, language models are sensitive to seemingly innocuous changes to inputs, which attackers can exploit across modalities.
arxiv情報
著者 | John Hughes,Sara Price,Aengus Lynch,Rylan Schaeffer,Fazl Barez,Sanmi Koyejo,Henry Sleight,Erik Jones,Ethan Perez,Mrinank Sharma |
発行日 | 2024-12-04 18:51:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google