要約
言語モデルを人間の好みに合わせるための標準的な方法である直接好み最適化 (DPO) は、伝統的にオフラインの好みに適用されてきました。
最近の研究では、DPO が、トレーニングされた報酬モデルによってラベル付けされたオンライン設定による反復トレーニングから恩恵を受けることが示されています。
この作業では、バニラの反復 DPO の落とし穴を特定します。つまり、応答品質の向上が冗長性の増加につながる可能性があります。
これに対処するために、応答長にペナルティを与える反復長正規化 DPO (iLR-DPO) を導入します。
私たちの実証結果は、iLR-DPO が冗長性を高めることなく 7B モデルを強化して GPT-4 と同等のパフォーマンスを実現できることを示しています。
具体的には、当社の 7B モデルは、AlpacaEval 2.0 で $\texttt{GPT-4 Preview}$ に対して $50.5\%$ の長さ制御勝率を達成し、MT-Bench、Arena-Hard、OpenLLM Leaderboard などの標準ベンチマーク全体で優れています。
これらの結果は、言語モデルを人間のフィードバックと調整する際の反復 DPO の有効性を示しています。
要約(オリジナル)
Direct Preference Optimization (DPO), a standard method for aligning language models with human preferences, is traditionally applied to offline preferences. Recent studies show that DPO benefits from iterative training with online preferences labeled by a trained reward model. In this work, we identify a pitfall of vanilla iterative DPO – improved response quality can lead to increased verbosity. To address this, we introduce iterative length-regularized DPO (iLR-DPO) to penalize response length. Our empirical results show that iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing verbosity. Specifically, our 7B model achieves a $50.5\%$ length-controlled win rate against $\texttt{GPT-4 Preview}$ on AlpacaEval 2.0, and excels across standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard. These results demonstrate the effectiveness of iterative DPO in aligning language models with human feedback.
arxiv情報
著者 | Jie Liu,Zhanhui Zhou,Jiaheng Liu,Xingyuan Bu,Chao Yang,Han-Sen Zhong,Wanli Ouyang |
発行日 | 2024-06-17 17:55:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google