Self-Play Preference Optimization for Language Model Alignment

要約

Bradley-Terry モデルのようなパラメトリック モデルに依存する従来のヒューマン フィードバックからの強化学習 (RLHF) アプローチは、人間の好みの自動性や非合理性を捉えるには不十分です。
最近の進歩により、好みの確率を直接操作すると、人間の好みがより正確に反映され、より柔軟で正確な言語モデルの調整が可能になることが示唆されています。
この論文では、ナッシュ均衡政策を特定することを目的とした定数和の 2 プレイヤー ゲームとして問題を扱う、言語モデルの調整のためのセルフプレイベースの方法を提案します。
\textit{Self-Play Preference Optimization} (SPPO) と呼ばれる私たちのアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似し、理論的な収束保証を享受します。
私たちの方法は、選択された応答の対数尤度を効果的に増加させ、拒否された応答の対数尤度を減少させることができます。これは、直接優先最適化 (DPO) やアイデンティティ優先最適化 (IPO) などの対称ペアワイズ損失では自明に達成することはできません。
私たちの実験では、UltraFeedback データセットからの 60,000 個のプロンプト (応答なし) のみを使用し、プロンプトの拡張は行わず、わずか 0.4B のパラメーターを持つ事前トレーニング済みの好みモデル PairRM を活用することで、SPPO は微調整 Mistral-7B からモデルを取得できます。
AlpacaEval 2.0 で GPT-4-Turbo に対して 28.53% という最先端の長さ制御勝率を達成する Instruct-v0.2。
また、MT-Bench および Open LLM Leaderboard での (反復的な) DPO および IPO よりも優れたパフォーマンスを示します。
特に、SPPO の強力なパフォーマンスは、GPT-4 または他の強力な言語モデルからの追加の外部監視 (応答、設定など) なしで達成されます。

要約(オリジナル)

Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed \textit{Self-Play Preference Optimization} (SPPO), approximates the Nash equilibrium through iterative policy updates and enjoys theoretical convergence guarantee. Our method can effectively increase the log-likelihood of the chosen response and decrease that of the rejected response, which cannot be trivially achieved by symmetric pairwise loss such as Direct Preference Optimization (DPO) and Identity Preference Optimization (IPO). In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models.

arxiv情報

著者 Yue Wu,Zhiqing Sun,Huizhuo Yuan,Kaixuan Ji,Yiming Yang,Quanquan Gu
発行日 2024-05-01 17:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク