Jailbroken: How Does LLM Safety Training Fail?


ChatGPT の初期リリースに対する望ましくない動作を誘発する「ジェイルブレイク」攻撃の蔓延によって証明されているように、安全性と無害性を目的にトレーニングされた大規模な言語モデルは依然として敵対的な悪用の影響を受けやすいです。
私たちは、安全トレーニングの 2 つの失敗モード、つまり競合する目的と不一致の一般化を仮定します。
これらの障害モードを使用してジェイルブレイク設計をガイドし、OpenAI の GPT-4 や Anthropic の Claude v1.3 などの最先端のモデルを既存の攻撃と新しく設計された攻撃の両方に対して評価します。
特に、障害モードを利用した新しい攻撃は、モデルのレッドチーム評価セットからの安全でないリクエストのコレクション内のすべてのプロンプトで成功し、既存のアドホック ジェイルブレイクを上回ります。


Large language models trained for safety and harmlessness remain susceptible to adversarial misuse, as evidenced by the prevalence of ‘jailbreak’ attacks on early releases of ChatGPT that elicit undesired behavior. Going beyond recognition of the issue, we investigate why such attacks succeed and how they can be created. We hypothesize two failure modes of safety training: competing objectives and mismatched generalization. Competing objectives arise when a model’s capabilities and safety goals conflict, while mismatched generalization occurs when safety training fails to generalize to a domain for which capabilities exist. We use these failure modes to guide jailbreak design and then evaluate state-of-the-art models, including OpenAI’s GPT-4 and Anthropic’s Claude v1.3, against both existing and newly designed attacks. We find that vulnerabilities persist despite the extensive red-teaming and safety-training efforts behind these models. Notably, new attacks utilizing our failure modes succeed on every prompt in a collection of unsafe requests from the models’ red-teaming evaluation sets and outperform existing ad hoc jailbreaks. Our analysis emphasizes the need for safety-capability parity — that safety mechanisms should be as sophisticated as the underlying model — and argues against the idea that scaling alone can resolve these safety failure modes.


著者 Alexander Wei,Nika Haghtalab,Jacob Steinhardt
発行日 2023-07-05 17:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク