要約
深層強化学習は、大規模言語モデル (LLM) を人間の好みに合わせるために広く使用されています。
ただし、従来の報酬モデリングは、主に、選択された個人コホートによって提供される人間によるアノテーションに依存しています。
このような依存性により、意図せずに、これらのアノテーターの傾向を反映した歪んだモデルが生成され、より広範な人々の期待を適切に表現できなくなる可能性があります。
私たちは、大規模な言語モデルを人間の多様な好みに合わせるためのシンプルかつ効果的なフレームワークである、分布選好報酬モデル (DPRM) を提案します。
この目的を達成するために、カテゴリ分布によって複数の好みを特徴付け、シフトされたまたは新しい好みに対応するベイジアン アップデーターを導入します。
その上で、最適な輸送ベースの損失を設計し、嗜好分布に合わせて DPRM を調整します。
最後に、期待される報酬を利用して LLM ポリシーを微調整し、母集団が好む応答を生成します。
私たちの実験では、DPRM が集団選好と LLM の整合性を大幅に強化し、より正確で偏りのない、状況に応じて適切な応答が得られることを示しています。
要約(オリジナル)
Deep Reinforcement Learning is widely used for aligning Large Language Models (LLM) with human preference. However, the conventional reward modelling is predominantly dependent on human annotations provided by a select cohort of individuals. Such dependence may unintentionally result in skewed models that reflect the inclinations of these annotators, thereby failing to adequately represent the wider population’s expectations. We propose the Distributional Preference Reward Model (DPRM), a simple yet effective framework to align large language models with diverse human preferences. To this end, we characterize multiple preferences by a categorical distribution and introduce a Bayesian updater to accommodate shifted or new preferences. On top of that, we design an optimal-transportation-based loss to calibrate DPRM to align with the preference distribution. Finally, the expected reward is utilized to fine-tune an LLM policy to generate responses favoured by the population. Our experiments show that DPRM significantly enhances the alignment of LLMs with population preference, yielding more accurate, unbiased, and contextually appropriate responses.
arxiv情報
著者 | Dexun Li,Cong Zhang,Kuicai Dong,Derrick Goh Xin Deik,Ruiming Tang,Yong Liu |
発行日 | 2024-05-30 15:39:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google