Course-Correction: Safety Alignment Using Synthetic Preferences

要約

大規模言語モデル (LLM) によって生成される有害なコンテンツのリスクが重大な懸念事項になります。
この論文では、\textbf{コース修正} のタスクを実行する LLM の能力、つまり、モデルが自律的に有害なコンテンツの生成を回避できる能力を評価および改善することに関する体系的な研究を紹介します。
まず、定量的評価のための \textsc{C$^2$-Eval} ベンチマークを導入し、10 個の人気のある LLM を分析し、現在の安全性を調整した LLM の軌道修正における習熟度のばらつきを明らかにします。
改善するために、タイムリーな軌道修正の優先性を強調して、優先学習を使用して LLM を微調整することを提案します。
自動パイプラインを使用して、750,000 個のペアごとの好みを含む合成データセットである \textsc{C$^2$-Syn} を作成し、データ駆動型の好み学習を通じてタイムリーな軌道修正の概念をモデルに教えます。
2 つの LLM、\textsc{Llama2-Chat 7B} と \textsc{Qwen2 7B} での実験では、私たちの方法が一般的なパフォーマンスに影響を与えることなく軌道修正スキルを効果的に強化できることがわかりました。
さらに、特に脱獄攻撃に対する抵抗において、LLM の安全性が効果的に向上します。

要約(オリジナル)

The risk of harmful content generated by large language models (LLMs) becomes a critical concern. This paper presents a systematic study on assessing and improving LLMs’ capability to perform the task of \textbf{course-correction}, \ie, the model can steer away from generating harmful content autonomously. To start with, we introduce the \textsc{C$^2$-Eval} benchmark for quantitative assessment and analyze 10 popular LLMs, revealing varying proficiency of current safety-tuned LLMs in course-correction. To improve, we propose fine-tuning LLMs with preference learning, emphasizing the preference for timely course-correction. Using an automated pipeline, we create \textsc{C$^2$-Syn}, a synthetic dataset with 750K pairwise preferences, to teach models the concept of timely course-correction through data-driven preference learning. Experiments on 2 LLMs, \textsc{Llama2-Chat 7B} and \textsc{Qwen2 7B}, show that our method effectively enhances course-correction skills without affecting general performance. Additionally, it effectively improves LLMs’ safety, particularly in resisting jailbreak attacks.

arxiv情報

著者 Rongwu Xu,Yishuo Cai,Zhenhong Zhou,Renjie Gu,Haiqin Weng,Yan Liu,Tianwei Zhang,Wei Xu,Han Qiu
発行日 2024-07-23 16:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク