Beyond One-Preference-for-All: Multi-Objective Direct Preference Optimization

要約

言語モデル (LM) は、人間のフィードバックからの強化学習 (RLHF) を通じて平均的なラベラーとうまく連携しますが、人間の多様な好みに普遍的に適合するとは限りません。
したがって、最近のアプローチでは、多次元のフィードバックを収集し、各次元 (有用性、無害性、誠実さなど) ごとに異なる報酬を作成することによってカスタマイズすることが選択されています。
その後、異なる報酬重み付けを備えた多目的 RL (MORL) を使用して、LM をさまざまな好みに合わせて調整できます。
しかし、RL の微調整は、特に多様で通常は矛盾する目的を持つ MORLHF にとって、不安定でリソースが大量にかかります。
この論文では、複数のアライメント目標に対して Direct Preference Optimization (DPO) を拡張した RL フリー アルゴリズムである Multi-Objective Direct Preference Optimization (MODPO) を紹介します。
基本的に、MODPO はさまざまな LM をトレーニングして、すべての目標を特定の重み付けで組み合わせたさまざまな集合報酬モデルを表現します。
単純なクロスエントロピー損失により、MODPO 目標に対して最適化された LM は、分析的には元の MORLHF 目標の正確な解になります。
安全性の調整と長文の質問応答における経験的結果は、MODPO が既存の方法と同等またはそれを上回り、MORLHF と比較して 3 倍少ない計算リソースで多様な好みに応えるパレート最適な LM セットを効率的に生成することを確認しています。

要約(オリジナル)

Language models (LMs), despite aligning well with an average labeler through reinforcement learning from human feedback (RLHF), may not universally suit diverse human preferences. Recent approaches therefore opt for customization by collecting multi-dimensional feedback and creating distinct rewards for each dimension (e.g., helpfulness, harmlessness, honesty). LMs can then be tailored to different preferences using multi-objective RL (MORL) with different reward weightings. Yet, RL fine-tuning is unstable and resource-heavy, especially for MORLHF with diverse and usually conflicting objectives. In this paper, we present Multi-Objective Direct Preference Optimization (MODPO), an RL-free algorithm that extends Direct Preference Optimization (DPO) for multiple alignment objectives. Essentially, MODPO trains different LMs to represent different collective reward models that combine all objectives with specific weightings. With a simple cross-entropy loss, the LMs optimized against the MODPO objective are analytically the exact solutions of the original MORLHF objective. Empirical results in safety alignment and long-form question answering confirm that MODPO matches or outperforms existing methods, efficiently producing a Pareto-optimal set of LMs that cater to diverse preferences with 3 times less computational resources compared with MORLHF.

arxiv情報

著者 Zhanhui Zhou,Jie Liu,Chao Yang,Jing Shao,Yu Liu,Xiangyu Yue,Wanli Ouyang,Yu Qiao
発行日 2023-10-05 17:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク