Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

要約

この研究は、安全でないコンテンツの生成を適切に拒否するモデルの能力を損なう、安全性チューニング データ内の拒否位置バイアスを特定して取り組むことにより、大規模言語モデル (LLM) の安全性チューニング実践における重大なギャップに対処します。
私たちは、LLM がどのような対応位置でも有害な指示への遵守を拒否できるように設計された、新しいアプローチである分離拒否トレーニング (DeRTa) を導入し、安全能力を大幅に強化します。
DeRTa には 2 つの新しいコンポーネントが組み込まれています。(1) 有害な応答プレフィックスを使用した最尤推定 (MLE)。安全な応答の先頭に有害な応答のセグメントを追加することで、安全でないコンテンツを認識して回避するようにモデルをトレーニングします。(2) 強化された移行
最適化 (RTO) は、有害な応答シーケンス全体を通じて、潜在的な危害から安全性の拒否に一貫して移行する機能をモデルに提供します。
6 つの攻撃シナリオにわたって LLaMA3 および Mistral モデル ファミリを使用して実施された当社の実証評価では、当社の手法がパフォーマンスを損なうことなくモデルの安全性を向上させるだけでなく、攻撃に対する防御において GPT-4 などのよく知られたモデルを上回ることが実証されました。
重要なのは、私たちのアプローチは、GPT-4 や LLaMA3-70B-Instruct をジェイルブレイクした最近の高度な攻撃手法 (Code Attack など) を防御することに成功していることです。
私たちのコードとデータは https://github.com/RobustNLP/DeRTa でご覧いただけます。

要約(オリジナル)

This study addresses a critical gap in safety tuning practices for Large Language Models (LLMs) by identifying and tackling a refusal position bias within safety tuning data, which compromises the models’ ability to appropriately refuse generating unsafe content. We introduce a novel approach, Decoupled Refusal Training (DeRTa), designed to empower LLMs to refuse compliance to harmful prompts at any response position, significantly enhancing their safety capabilities. DeRTa incorporates two novel components: (1) Maximum Likelihood Estimation (MLE) with Harmful Response Prefix, which trains models to recognize and avoid unsafe content by appending a segment of harmful response to the beginning of a safe response, and (2) Reinforced Transition Optimization (RTO), which equips models with the ability to transition from potential harm to safety refusal consistently throughout the harmful response sequence. Our empirical evaluation, conducted using LLaMA3 and Mistral model families across six attack scenarios, demonstrates that our method not only improves model safety without compromising performance but also surpasses well-known models such as GPT-4 in defending against attacks. Importantly, our approach successfully defends recent advanced attack methods (e.g., CodeAttack) that have jailbroken GPT-4 and LLaMA3-70B-Instruct. Our code and data can be found at https://github.com/RobustNLP/DeRTa.

arxiv情報

著者 Youliang Yuan,Wenxiang Jiao,Wenxuan Wang,Jen-tse Huang,Jiahao Xu,Tian Liang,Pinjia He,Zhaopeng Tu
発行日 2024-07-12 09:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク