On Diverse Preferences for Large Language Model Alignment

要約

大規模言語モデル (LLM) と人間の価値観を一致させることは、汎用人工知能 (AGI) の開発にとって重要です。
この調整を達成するための有望なアプローチの 1 つは、人間のフィードバックからの強化学習です。これは、人間の好みのデータセットから学習した報酬モデル (RM) を採用して、人間の好みに合わせたテキストを生成する際に LLM をガイドします。
この論文は、報酬分布の集中的な実験と分析を通じて、たとえすべて人間の好みを一致させるために提案されているにもかかわらず、好みのデータセットが互いに異なっていることを発見しました。
したがって、報酬モデリングを強化するためにデータサイズを増やすために多様な人間の嗜好データセットを混合すると失敗する可能性があります。
この問題に対処し、多様な好みから人間の共通の価値観を捉えるために、MORE と呼ばれる新しいトレーニング ポリシーが導入されます。これは、多様な好みにわたって好みの目標を適応的に調整することで、好みの偏りを最小限に抑えます。
Pythia-1.4B モデルと 5 つの混合嗜好データセットを使用した実験では、MORE が優れた報酬精度と低い校正誤差を実現し、多様な人間の嗜好データを活用する能力を強調していることが示されています。

要約(オリジナル)

The alignment of large language models (LLMs) with human values is crucial for the development of artificial general intelligence (AGI). One promising approach to achieve this alignment is reinforcement learning from human feedback, which employs a reward model (RM) learned from human preference datasets to guide LLMs in generating text that aligns with human preferences. Through intensive experiments and analysis of reward distribution, this paper finds that preference datasets are diverse from each other, even though they are all proposed to align human preference. Hence, mixing diverse human preference datasets to increase data size for enhancing reward modeling could fail. To address the issue and capture the shared human values from diverse preferences, a new training policy called MORE is introduced, which minimizes preference bias by adaptively adjusting the preference objective across diverse preferences. Experiments with the Pythia-1.4B model and five mixed preference datasets show that MORE achieves superior reward accuracy and lower calibration error, highlighting its ability to leverage diverse human preference data.

arxiv情報

著者 Dun Zeng,Yong Dai,Pengyu Cheng,Tianhao Hu,Wanshun Chen,Nan Du,Zenglin Xu
発行日 2023-12-12 16:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク