要約
報酬モデリングは、大規模な言語モデル(LLM)を調整するために人間のフィードバック(RLHF)から補強学習を適用する際の安全な基礎モデルを構築する上で重要なステップです。
ただし、Bradley-Terry(BT)モデルに基づく報酬モデリングは、グローバルな報酬機能を想定しており、本質的に多様で不均一な人間の好みをキャプチャできません。
したがって、そのような単純化過剰化は、LLMSがパーソナライズと多元的な整合性をサポートすることを制限します。
理論的には、人間の好みが多様なサブグループの混合分布に従うと、単一のBTモデルには還元不可能な誤差があることを示します。
微細にグレームの注釈を備えた多目的学習などの既存のソリューションは、この問題に対処するのに役立ちますが、それらは事前に定義された属性によって制約され、人間の価値の豊かさを完全に捉えることができません。
この作業では、明示的な細かい注釈を必要とせずに大規模なバイナリ優先データセットを活用することにより、パーソナライズされた好みの学習を強化する2段階のフレームワークであるMicroを紹介します。
最初の段階では、Microは、多様な人間の好みをキャプチャするために、コンテキストを意識した混合モデリングアプローチを導入します。
第2段階では、Microは、特定のコンテキストに基づいて混合重量を動的に適応させるオンラインルーティング戦略を統合して、曖昧さを解決し、最小限の追加監督で効率的でスケーラブルな好みの適応を可能にします。
複数の選好データセットでの実験は、ミクロが多様な人間の好みを効果的にキャプチャし、下流のパーソナライズを大幅に改善することを示しています。
要約(オリジナル)
Reward modeling is a key step in building safe foundation models when applying reinforcement learning from human feedback (RLHF) to align Large Language Models (LLMs). However, reward modeling based on the Bradley-Terry (BT) model assumes a global reward function, failing to capture the inherently diverse and heterogeneous human preferences. Hence, such oversimplification limits LLMs from supporting personalization and pluralistic alignment. Theoretically, we show that when human preferences follow a mixture distribution of diverse subgroups, a single BT model has an irreducible error. While existing solutions, such as multi-objective learning with fine-grained annotations, help address this issue, they are costly and constrained by predefined attributes, failing to fully capture the richness of human values. In this work, we introduce MiCRo, a two-stage framework that enhances personalized preference learning by leveraging large-scale binary preference datasets without requiring explicit fine-grained annotations. In the first stage, MiCRo introduces context-aware mixture modeling approach to capture diverse human preferences. In the second stage, MiCRo integrates an online routing strategy that dynamically adapts mixture weights based on specific context to resolve ambiguity, allowing for efficient and scalable preference adaptation with minimal additional supervision. Experiments on multiple preference datasets demonstrate that MiCRo effectively captures diverse human preferences and significantly improves downstream personalization.
arxiv情報
著者 | Jingyan Shen,Jiarui Yao,Rui Yang,Yifan Sun,Feng Luo,Rui Pan,Tong Zhang,Han Zhao |
発行日 | 2025-05-30 17:44:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google