Beyond One-Preference-for-All: Multi-Objective Direct Preference Optimization for Language Models

要約

単一言語モデル (LM) は、人間のフィードバックからの強化学習 (RLHF) を通じて平均的なラベラーとうまく連携しますが、人間の多様な好みに普遍的に適合するとは限りません。
したがって、最近のアプローチはカスタマイズを追求し、異なる調整目標(有用性、無害性、誠実さなど)を表すために別個の原則ベースの報酬モデルをトレーニングしています。
その後、異なる目標重み付けを使用した多目的 RLHF (MORLHF) を通じて、異なる LM を異なる好みに合わせてトレーニングできます。
しかし、RLHF は不安定でリソースが多く、特に多様で通常は矛盾する目的を持つ MORLHF にとっては顕著です。
この論文では、複数のアライメント目標に対して Direct Preference Optimization (DPO) を拡張した RL フリー アルゴリズムである Multi-Objective Direct Preference Optimization (MODPO) を紹介します。
基本的に、MODPO は LM 学習を報酬モデリングに直接組み込んで、純粋なクロスエントロピー損失を使用して LM をすべての原理ベースの報酬の加重合計と調整します。
理論的には MORLHF と同じ最適解を生成することが保証されていますが、MODPO は実際にはより安定しており、計算効率が高く、値関数モデリングやオンライン サンプル収集が不要になります。
安全性の調整と長文の質問応答における経験的結果は、MODPO が既存の手法と同等またはそれを上回るパフォーマンスを示し、MORLHF と比較して 3 倍少ない計算量で多様な好みに応える最も競争力のある LM フロントの 1 つを一貫して生成することを確認しています。

要約(オリジナル)

A single language model (LM), despite aligning well with an average labeler through reinforcement learning from human feedback (RLHF), may not universally suit diverse human preferences. Recent approaches thus pursue customization, training separate principle-based reward models to represent different alignment objectives (e.g. helpfulness, harmlessness, or honesty). Different LMs can then be trained for different preferences through multi-objective RLHF (MORLHF) with different objective weightings. Yet, RLHF is unstable and resource-heavy, especially for MORLHF with diverse and usually conflicting objectives. In this paper, we present Multi-Objective Direct Preference Optimization (MODPO), an RL-free algorithm that extends Direct Preference Optimization (DPO) for multiple alignment objectives. Essentially, MODPO folds LM learning directly into reward modeling, aligning LMs with the weighted sum of all principle-based rewards using pure cross-entropy loss. While theoretically guaranteed to produce the same optimal solutions as MORLHF, MODPO is practically more stable and computationally efficient, obviating value function modeling and online sample collection. Empirical results in safety alignment and long-form question answering confirm that MODPO matches or outperforms existing methods, consistently producing one of the most competitive LM fronts that cater to diverse preferences with 3 times fewer computations compared with MORLHF.

arxiv情報

著者 Zhanhui Zhou,Jie Liu,Chao Yang,Jing Shao,Yu Liu,Xiangyu Yue,Wanli Ouyang,Yu Qiao
発行日 2023-10-17 16:29:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク