要約
人間のフィードバックによる強化学習(RLHF)は、大規模な言語モデル(LLM)を人間の嗜好に合わせることで大きな成功を収めている。一般的なRLHFアプローチは、Bradley-Terry (BT)モデルの仮定に従った報酬ベースであり、人間の嗜好の複雑さを十分に理解できない可能性がある。本論文では、一般的な選好の枠組みでRLHFを探求し、ゲーム理論の観点からアプローチする。具体的には、問題を2人ゲームとして定式化し、新しいオンラインアルゴリズムである反復ナッシュ政策最適化(INPO)を提案する。重要なアイデアは、後悔のない学習によって政策をそれ自身と対戦させ、それによってナッシュ政策を近似することである。これまでの方法とは異なり、INPOは個々の応答に対する期待勝率を推定する必要性を回避する。その代わりに、嗜好データセット上で直接最小化される新しい損失目標を導入する。本アプローチの理論的解析を行い、様々な代表的ベンチマークでの実験により、その有効性を実証する。LLaMA-3-8BベースのSFTモデルにより、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の長さ制御勝率を達成し、最先端のオンラインRLHFアルゴリズムと比較して大幅な改善を示した。
要約(オリジナル)
Reinforcement Learning with Human Feedback (RLHF) has achieved great success in aligning large language models (LLMs) with human preferences. Prevalent RLHF approaches are reward-based, following the Bradley-Terry (BT) model assumption, which may not fully capture the complexity of human preferences. In this paper, we explore RLHF under a general preference framework and approach it from a game-theoretic perspective. Specifically, we formulate the problem as a two-player game and propose a novel online algorithm, iterative Nash policy optimization (INPO). The key idea is to let the policy play against itself via no-regret learning, thereby approximating the Nash policy. Unlike previous methods, INPO bypasses the need for estimating the expected win rate for individual responses, which typically incurs high computational or annotation costs. Instead, we introduce a new loss objective that is directly minimized over a preference dataset. We provide theoretical analysis for our approach and demonstrate its effectiveness through experiments on various representative benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 42.6% length-controlled win rate on AlpacaEval 2.0 and a 37.8% win rate on Arena-Hard, showing substantial improvement over the state-of-the-art online RLHF algorithms.
arxiv情報
著者 | Yuheng Zhang,Dian Yu,Baolin Peng,Linfeng Song,Ye Tian,Mingyue Huo,Nan Jiang,Haitao Mi,Dong Yu |
発行日 | 2025-03-03 03:41:11+00:00 |
arxivサイト | arxiv_id(pdf) |