The Perfect Blend: Redefining RLHF with Mixture of Judges

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を微調整するための主要なアプローチとなっています。
ただし、RLHF には、報酬ハッキングや極端な複数目的の最適化 (つまり、複数の目標、および/または場合によっては矛盾する目標のトレードオフ) という課題があるため、マルチタスク学習 (MTL) には限界があります。
現在、MTL に RLHF を適用するには、報酬モデルとデータの組み合わせの重みを慎重に調整する必要があります。
これは人間の直感によって行われることが多く、一般化できるものではありません。
この研究では、制約付き生成ポリシー最適化 (CGPO) と呼ばれる新しいトレーニング後のパラダイムを導入します。
CGPO の中核は、層別化を伴うコスト効率の高い制約付き政策の最適化を備えた裁判官の混合 (MoJ) であり、原則に基づいた方法で RLHF の完璧な混合を特定できます。
理論的な保証とともに強力な経験的結果を示し、大規模なハイパーパラメーター調整を必要とせず、一般的なトレーニング後のパイプラインでプラグアンドプレイです。
これらを組み合わせることで、非常に多くの目標にわたってパレート最適点に到達しながら、報酬ハッキング行為を検出して軽減できます。
私たちの経験的評価では、一般的なチャット、STEM の質問、指示に従って、コーディングなどのさまざまなタスクにわたって、CGPO が PPO や DPO などの標準 RLHF アルゴリズムよりも大幅に優れていることが実証されています。
具体的には、CGPO は AlpacaEval-2 (一般的なチャット) で 7.4%、Arena-Hard (STEM および推論) で 12.5% の改善を示し、数学やコーディングなどの他のドメインでも一貫した改善を示しています。
特に、PPO は一般的に使用されていますが、一般的なコーディング ベンチマークでは重大な報酬ハッキングを受ける傾向がありますが、CGPO はこれにうまく対処しています。
RLHF におけるこのブレークスルーは、報酬ハッキングや極端な多目的最適化の課題に取り組むだけでなく、多様なアプリケーション向けに汎用 LLM を調整する際の最先端の技術も進歩させます。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has become the leading approach for fine-tuning large language models (LLM). However, RLHF has limitations in multi-task learning (MTL) due to challenges of reward hacking and extreme multi-objective optimization (i.e., trade-off of multiple and/or sometimes conflicting objectives). Applying RLHF for MTL currently requires careful tuning of the weights for reward model and data combinations. This is often done via human intuition and does not generalize. In this work, we introduce a novel post-training paradigm which we called Constrained Generative Policy Optimization (CGPO). The core of CGPO is Mixture of Judges (MoJ) with cost-efficient constrained policy optimization with stratification, which can identify the perfect blend in RLHF in a principled manner. It shows strong empirical results with theoretical guarantees, does not require extensive hyper-parameter tuning, and is plug-and-play in common post-training pipelines. Together, this can detect and mitigate reward hacking behaviors while reaching a pareto-optimal point across an extremely large number of objectives. Our empirical evaluations demonstrate that CGPO significantly outperforms standard RLHF algorithms like PPO and DPO across various tasks including general chat, STEM questions, instruction following, and coding. Specifically, CGPO shows improvements of 7.4% in AlpacaEval-2 (general chat), 12.5% in Arena-Hard (STEM & reasoning), and consistent gains in other domains like math and coding. Notably, PPO, while commonly used, is prone to severe reward hacking in popular coding benchmarks, which CGPO successfully addresses. This breakthrough in RLHF not only tackles reward hacking and extreme multi-objective optimization challenges but also advances the state-of-the-art in aligning general-purpose LLMs for diverse applications.

arxiv情報

著者 Tengyu Xu,Eryk Helenowski,Karthik Abinav Sankararaman,Di Jin,Kaiyan Peng,Eric Han,Shaoliang Nie,Chen Zhu,Hejia Zhang,Wenxuan Zhou,Zhouhao Zeng,Yun He,Karishma Mandyam,Arya Talabzadeh,Madian Khabsa,Gabriel Cohen,Yuandong Tian,Hao Ma,Sinong Wang,Han Fang
発行日 2024-09-30 15:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク