MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences

要約

Reinforcement Learning from Human Feedback (RLHF) は、嗜好データから派生した単一の報酬モデルを採用することで、言語モデルを人間の嗜好に合わせます。
しかし、そのようなアプローチでは、複数のユーザーから収集されたデータに固有の人間の嗜好の豊かな多様性が見落とされます。
この研究では、最初に単一報酬 RLHF との調整の不可能な結果を​​導き出し、それによって多様な人間の好みを表現する上での RLHF の不十分さを強調します。
この問題に対する公平な解決策を提供するために、期待値最大化アルゴリズムを介して好みの分布の混合を学習し、多様な人間の好みをより適切に表現するために、社会選択理論の平等原則に触発された政策学習用の MaxMin 調整目標を提案します。
私たちが提案するアプローチと分布的にロバストな最適化お​​よび一般ユーティリティ RL との関係を解明し、それによって私たちが提案するソリューションの汎用性とロバスト性を強調します。
我々は、小規模(GPT-2)および大規模言語モデル(Tulu2-7Bを使用)に関する包括的な実験結果を提示し、人間の好みの多様性が存在する場合における提案されたアプローチの有効性を示します。
当社のアルゴリズムは、従来の RLHF アルゴリズムと比較して勝率の平均 16% 以上の向上を達成し、多数派グループのパフォーマンスを損なうことなく少数派グループの勝率 (精度) を 33% 以上改善し、当社のアルゴリズムの堅牢性と公平性を実証しています。
アプローチ。
この研究での発見は言語モデルに限定されるものではなく、強化学習一般にも拡張されることに注意してください。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) aligns language models to human preferences by employing a singular reward model derived from preference data. However, such an approach overlooks the rich diversity of human preferences inherent in data collected from multiple users. In this work, we first derive an impossibility result of alignment with single reward RLHF, thereby highlighting its insufficiency in representing diverse human preferences. To provide an equitable solution to the problem, we learn a mixture of preference distributions via an expectation-maximization algorithm and propose a MaxMin alignment objective for policy learning inspired by the Egalitarian principle in social choice theory to better represent diverse human preferences. We elucidate the connection of our proposed approach to distributionally robust optimization and general utility RL, thereby highlighting the generality and robustness of our proposed solution. We present comprehensive experimental results on small-scale (GPT-2) and large-scale language models (with Tulu2-7B) and show the efficacy of the proposed approach in the presence of diversity among human preferences. Our algorithm achieves an average improvement of more than 16% in win-rates over conventional RLHF algorithms and improves the win-rate (accuracy) for minority groups by over 33% without compromising the performance of majority groups, showcasing the robustness and fairness of our approach. We remark that our findings in this work are not only limited to language models but also extend to reinforcement learning in general.

arxiv情報

著者 Souradip Chakraborty,Jiahao Qiu,Hui Yuan,Alec Koppel,Furong Huang,Dinesh Manocha,Amrit Singh Bedi,Mengdi Wang
発行日 2024-02-14 03:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク