Jailbroken: How Does LLM Safety Training Fail?

要約

ChatGPT の初期リリースに対する望ましくない動作を誘発する「ジェイルブレイク」攻撃の蔓延によって証明されているように、安全性と無害性を目的にトレーニングされた大規模な言語モデルは依然として敵対的な悪用の影響を受けやすいです。
私たちは、問題の認識を超えて、なぜそのような攻撃が成功するのか、またどのようにして攻撃が作成されるのかを調査します。
私たちは、安全トレーニングの 2 つの失敗モード、つまり競合する目的と不一致の一般化を仮定します。
モデルの機能と安全目標が矛盾する場合、競合する目標が発生します。一方、機能が存在する領域に安全トレーニングが一般化できない場合、不一致の一般化が発生します。
これらの障害モードを使用してジェイルブレイク設計をガイドし、OpenAI の GPT-4 や Anthropic の Claude v1.3 などの最先端のモデルを既存の攻撃と新しく設計された攻撃の両方に対して評価します。
これらのモデルの背後で大規模なレッドチームと安全トレーニングの取り組みが行われているにもかかわらず、脆弱性が依然として存在することがわかりました。
特に、障害モードを利用した新しい攻撃は、モデルのレッドチーム評価セットからの安全でないリクエストのコレクション内のすべてのプロンプトで成功し、既存のアドホック ジェイルブレイクを上回ります。
私たちの分析では、安全機能の同等性、つまり安全メカニズムは基礎となるモデルと同じくらい洗練されている必要があることの必要性を強調し、スケーリングだけでこれらの安全故障モードを解決できるという考えに反対しています。

要約(オリジナル)

Large language models trained for safety and harmlessness remain susceptible to adversarial misuse, as evidenced by the prevalence of ‘jailbreak’ attacks on early releases of ChatGPT that elicit undesired behavior. Going beyond recognition of the issue, we investigate why such attacks succeed and how they can be created. We hypothesize two failure modes of safety training: competing objectives and mismatched generalization. Competing objectives arise when a model’s capabilities and safety goals conflict, while mismatched generalization occurs when safety training fails to generalize to a domain for which capabilities exist. We use these failure modes to guide jailbreak design and then evaluate state-of-the-art models, including OpenAI’s GPT-4 and Anthropic’s Claude v1.3, against both existing and newly designed attacks. We find that vulnerabilities persist despite the extensive red-teaming and safety-training efforts behind these models. Notably, new attacks utilizing our failure modes succeed on every prompt in a collection of unsafe requests from the models’ red-teaming evaluation sets and outperform existing ad hoc jailbreaks. Our analysis emphasizes the need for safety-capability parity — that safety mechanisms should be as sophisticated as the underlying model — and argues against the idea that scaling alone can resolve these safety failure modes.

arxiv情報

著者 Alexander Wei,Nika Haghtalab,Jacob Steinhardt
発行日 2023-07-05 17:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク