要約
拒否訓練は、LLMが有害、望ましくない、あるいは違法な出力を生成するのを防ぐために広く使われている。我々は、現在の拒否訓練アプローチにおける不思議な汎化のギャップを明らかにする。有害な要求を過去形に言い換えるだけ(例えば、「火炎瓶の作り方」を「火炎瓶をどうやって作ったか」に言い換える)で、多くの最先端のLLMを脱獄させるのに十分な場合が多い。我々は、GPT-3.5 Turboを再定式化モデルとして、Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview、R2D2モデルでこの方法を系統的に評価した。例えば、GPT-4oに対するこの単純な攻撃の成功率は、直接要求を使用した場合の1%から、脱獄判定としてGPT-4を使用したJailbreakBenchからの有害な要求に対する20回の過去時制の再定式化の試行を使用した場合の88%まで増加します。興味深いことに、我々はまた、未来時制での再定式化がより効果的でないことを発見し、拒否ガードレールは、仮想的な未来の質問よりも過去の歴史的な質問をより良性であるとみなす傾向があることを示唆している。さらに、GPT-3.5ターボのファインチューニング実験から、ファインチューニングデータに過去の時制の例が明示的に含まれている場合、過去の改竄に対する防御が可能であることが示された。全体として、我々の発見は、SFT、RLHF、敵対的訓練など、研究されたモデルを整列させるために広く使用されている整列技術は脆く、必ずしも意図したとおりに一般化されない可能性があることを強調している。コードと脱獄の成果物はhttps://github.com/tml-epfl/llm-past-tense。
要約(オリジナル)
Refusal training is widely used to prevent LLMs from generating harmful, undesirable, or illegal outputs. We reveal a curious generalization gap in the current refusal training approaches: simply reformulating a harmful request in the past tense (e.g., ‘How to make a Molotov cocktail?’ to ‘How did people make a Molotov cocktail?’) is often sufficient to jailbreak many state-of-the-art LLMs. We systematically evaluate this method on Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o mini, GPT-4o, o1-mini, o1-preview, and R2D2 models using GPT-3.5 Turbo as a reformulation model. For example, the success rate of this simple attack on GPT-4o increases from 1% using direct requests to 88% using 20 past tense reformulation attempts on harmful requests from JailbreakBench with GPT-4 as a jailbreak judge. Interestingly, we also find that reformulations in the future tense are less effective, suggesting that refusal guardrails tend to consider past historical questions more benign than hypothetical future questions. Moreover, our experiments on fine-tuning GPT-3.5 Turbo show that defending against past reformulations is feasible when past tense examples are explicitly included in the fine-tuning data. Overall, our findings highlight that the widely used alignment techniques — such as SFT, RLHF, and adversarial training — employed to align the studied models can be brittle and do not always generalize as intended. We provide code and jailbreak artifacts at https://github.com/tml-epfl/llm-past-tense.
arxiv情報
著者 | Maksym Andriushchenko,Nicolas Flammarion |
発行日 | 2024-10-03 16:46:09+00:00 |
arxivサイト | arxiv_id(pdf) |