Improving LLM Safety Alignment with Dual-Objective Optimization

要約

大規模な言語モデル(LLM)の既存のトレーニング時間安全アライメント手法は、脱獄攻撃に対して脆弱なままです。
広く展開されているアライメント法である直接選好最適化(DPO)は、その損失関数が拒否学習の最適であることを証明するため、実験的および理論的コンテキストの両方で制限を示します。
グラジエントベースの分析を通じて、これらの欠点を特定し、DPOの目的を2つのコンポーネントに解くという安全な安全調整を改善することを提案します。(1)部分的に安全な世代が生み出された場合でも拒否を促進する堅牢な拒否トレーニング、および(2)有害な知識の標的化されていない。
このアプローチは、分散および分散療法シナリオの両方にわたって、プレフィング、接尾辞、マルチターン攻撃など、幅広い脱獄攻撃に対するLLMの堅牢性を大幅に向上させます。
さらに、報酬ベースのトークンレベルの重み付けメカニズムを拒否学習に組み込むことにより、批判的な拒否トークンを強調する方法を紹介します。
また、私たちの研究は、脱獄攻撃への堅牢性が、トレーニングプロセスのトークン分布シフトと拒否と有害なトークンの内部表現と相関しており、LLM安全アライメントにおける将来の研究のための貴重な方向性を提供することを示唆しています。
このコードは、https://github.com/wicai24/door-alignmentで入手できます

要約(オリジナル)

Existing training-time safety alignment techniques for large language models (LLMs) remain vulnerable to jailbreak attacks. Direct preference optimization (DPO), a widely deployed alignment method, exhibits limitations in both experimental and theoretical contexts as its loss function proves suboptimal for refusal learning. Through gradient-based analysis, we identify these shortcomings and propose an improved safety alignment that disentangles DPO objectives into two components: (1) robust refusal training, which encourages refusal even when partial unsafe generations are produced, and (2) targeted unlearning of harmful knowledge. This approach significantly increases LLM robustness against a wide range of jailbreak attacks, including prefilling, suffix, and multi-turn attacks across both in-distribution and out-of-distribution scenarios. Furthermore, we introduce a method to emphasize critical refusal tokens by incorporating a reward-based token-level weighting mechanism for refusal learning, which further improves the robustness against adversarial exploits. Our research also suggests that robustness to jailbreak attacks is correlated with token distribution shifts in the training process and internal representations of refusal and harmful tokens, offering valuable directions for future research in LLM safety alignment. The code is available at https://github.com/wicai24/DOOR-Alignment

arxiv情報

著者 Xuandong Zhao,Will Cai,Tianneng Shi,David Huang,Licong Lin,Song Mei,Dawn Song
発行日 2025-03-05 18:01:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク