Quantile Regression for Distributional Reward Models in RLHF

要約

人間のフィードバックからの強化学習 (RLHF) は、報酬モデルの使用を通じて大規模言語モデル (LLM) を人間の好みに合わせるための重要な方法となっています。
ただし、従来の報酬モデルは通常、点推定を生成するため、人間の価値観や好みの多様性と複雑さを過度に単純化します。
この論文では、単一のスカラー値の代わりに報酬全体の分布を学習する報酬モデリングへの新しいアプローチである分位報酬モデル (QRM) を紹介します。
私たちの方法では、分位回帰を使用して、好みに関する完全な、潜在的に多峰性の分布を推定し、好みのより強力で微妙な表現を提供します。
この分布アプローチは、人間の価値観の多様性をより適切に捉え、ラベル ノイズに対処し、分布内の個別のモードとしてモデル化することで、矛盾する好みに対応できます。
私たちの実験結果は、QRM が RewardBench 上の同等の従来の点推定モデルよりも優れていることを示しています。
さらに、分布推定によって提供される追加情報は、リスク認識強化学習などの下流アプリケーションで利用でき、その結果、極度に否定的な応答が少なくなる LLM ポリシーが得られることを実証します。
コードとモデルは https://github.com/Nicolinho/QRM で公開されています。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has become a key method for aligning large language models (LLMs) with human preferences through the use of reward models. However, traditional reward models typically generate point estimates, which oversimplify the diversity and complexity of human values and preferences. In this paper, we introduce Quantile Reward Models (QRMs), a novel approach to reward modeling that learns a distribution over rewards instead of a single scalar value. Our method uses quantile regression to estimate a full, potentially multimodal distribution over preferences, providing a more powerful and nuanced representation of preferences. This distributional approach can better capture the diversity of human values, addresses label noise, and accommodates conflicting preferences by modeling them as distinct modes in the distribution. Our experimental results show that QRM outperforms comparable traditional point-estimate models on RewardBench. Furthermore, we demonstrate that the additional information provided by the distributional estimates can be utilized in downstream applications, such as risk-aware reinforcement learning, resulting in LLM policies that generate fewer extremely negative responses. Our code and model are released at https://github.com/Nicolinho/QRM.

arxiv情報

著者 Nicolai Dorka
発行日 2024-09-16 10:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク