Mission Impossible: A Statistical Perspective on Jailbreaking LLMs

要約

大規模言語モデル(LLM)は、限られた品質管理のもとで、大量のテキストデータに対して学習される。その結果、LLMは情報漏洩、フェイクニュース、ヘイトスピーチなど、意図しない、あるいは有害な振る舞いを示すことさえある。一般にプリファレンス・アライメントと呼ばれる対策には、事前に学習させたLLMを、望ましい振る舞いをするように注意深く作られたテキスト例で微調整することが含まれる。それでも、経験則によれば、プリファレンス・アラインメントされたLLMは、有害な行動に誘引される可能性がある。LLMのいわゆるジェイルブレーキングは、通常、LLMへの入力プロンプトを敵対的に変更することで達成される。本稿では、統計的な観点から、プリファレンス・アラインメントとジェイルブレーキング現象に対する理論的洞察を提供する。我々のフレームワークの下で、まず、事前に訓練されたLLMが訓練コーパスに存在する場合、有害な振る舞いを模倣することを示す。同じフレームワークの下で、アライメントの統計的概念を導入し、脱獄確率の下界を設定し、妥当な仮定の下では脱獄を防ぐことができないことを示す。我々の洞察に基づき、現在普及しているアライメント戦略RLHFの変更を提案する。具体的には、E-RLHFと呼ぶRLHFの目的に対する単純な修正を導入し、安全な応答の可能性を高めることを目指す。E-RLHFは追加的な学習コストを必要とせず、他の手法と互換性がある。経験的に、E-RLHFは、MT-Benchプロジェクトで測定されたモデル性能を犠牲にすることなく、AdvBenchおよびHarmBenchプロジェクトで提示された全てのアライメント問題においてRLHFを上回ることを実証する。

要約(オリジナル)

Large language models (LLMs) are trained on a deluge of text data with limited quality control. As a result, LLMs can exhibit unintended or even harmful behaviours, such as leaking information, fake news or hate speech. Countermeasures, commonly referred to as preference alignment, include fine-tuning the pretrained LLMs with carefully crafted text examples of desired behaviour. Even then, empirical evidence shows preference aligned LLMs can be enticed to harmful behaviour. This so called jailbreaking of LLMs is typically achieved by adversarially modifying the input prompt to the LLM. Our paper provides theoretical insights into the phenomenon of preference alignment and jailbreaking from a statistical perspective. Under our framework, we first show that pretrained LLMs will mimic harmful behaviour if present in the training corpus. Under that same framework, we then introduce a statistical notion of alignment, and lower-bound the jailbreaking probability, showing that it is unpreventable under reasonable assumptions. Based on our insights, we propose an alteration to the currently prevalent alignment strategy RLHF. Specifically, we introduce a simple modification to the RLHF objective, we call E-RLHF, that aims to increase the likelihood of safe responses. E-RLHF brings no additional training cost, and is compatible with other methods. Empirically, we demonstrate that E-RLHF outperforms RLHF on all alignment problems put forward by the AdvBench and HarmBench project without sacrificing model performance as measured by the MT-Bench project.

arxiv情報

著者 Jingtong Su,Julia Kempe,Karen Ullrich
発行日 2024-08-02 17:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク