要約
人間のフィードバックからの強化学習 (RLHF) を含む多くの調整手法は、ブラッドリー・テリーの報酬仮定に依存していますが、人間の一般的な好みの全範囲を捉えるには不十分です。
一般的な好みとの堅牢な整合性を実現するために、整合性の問題を 2 プレイヤーのゼロサム ゲームとしてモデル化します。このゲームでは、ナッシュ均衡ポリシーが、競合するポリシーに対して 50% の勝率を保証します。
ただし、ナッシュ ポリシーを見つけるための以前のアルゴリズムは、単純な合成設定であっても、変更されたゲームで分岐するかナッシュ ポリシーに収束するため、他のすべてのポリシーに対して 50% の勝率保証を維持できません。
我々は、ゲーム理論の収束アルゴリズムにヒントを得て、言語モデルを一般的な好みに合わせるためのメタアルゴリズムである収束メタアライメントアルゴリズム(COMAL)を提案します。
理論的には、メタアルゴリズムが最後の反復で正確なナッシュ ポリシーに収束することが証明されます。
さらに、私たちのメタアルゴリズムはシンプルで、最小限の変更で RLHF およびプリファレンスの最適化用に設計された多くの既存の手法と統合できます。
実験結果は、既存の優先ポリシー最適化手法と組み合わせた場合の、提案されたフレームワークの有効性を示しています。
要約(オリジナル)
Many alignment methods, including reinforcement learning from human feedback (RLHF), rely on the Bradley-Terry reward assumption, which is insufficient to capture the full range of general human preferences. To achieve robust alignment with general preferences, we model the alignment problem as a two-player zero-sum game, where the Nash equilibrium policy guarantees a 50% win rate against any competing policy. However, previous algorithms for finding the Nash policy either diverge or converge to a Nash policy in a modified game, even in a simple synthetic setting, thereby failing to maintain the 50% win rate guarantee against all other policies. We propose a meta-algorithm, Convergent Meta Alignment Algorithm (COMAL), for language model alignment with general preferences, inspired by convergent algorithms in game theory. Theoretically, we prove that our meta-algorithm converges to an exact Nash policy in the last iterate. Additionally, our meta-algorithm is simple and can be integrated with many existing methods designed for RLHF and preference optimization with minimal changes. Experimental results demonstrate the effectiveness of the proposed framework when combined with existing preference policy optimization methods.
arxiv情報
著者 | Yixin Liu,Argyris Oikonomou,Weiqiang Zheng,Yang Cai,Arman Cohan |
発行日 | 2024-10-30 17:13:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google