要約
ヒューマン フィードバック (LHF) からの学習、特にペアごとの好みからの学習は、最近、大規模言語モデル (LLM) のトレーニングにおける重要な要素となっており、多くの研究の対象となっています。
最近の研究では、これを強化学習問題として構成しており、報酬関数はペアごとの選好データから学習され、LLM は多くの場合追加の正則化制約の下で報酬を最大化するように適応されるポリシーとして扱われます。
我々は、ペアごとの選好の生成プロセスに焦点を当て、LHF を密度推定問題として扱う別の解釈を提案します。
我々は、選好行動分布方程式を介して定義された一連の生成プロセスについて、ペアごとの選好に関する報酬関数をトレーニングすることで、アノテーターの暗黙的な選好分布を効果的にモデル化できることを示す理論的および経験的結果を提供します。
最後に、「アノテーターの誤った指定」、つまりアノテーターの行動に関して間違ったモデリングの仮定が行われ、モデルが適切に適応されていない失敗例について議論し、その結果を提示します。これは、ペアごとの人間の好みから学習するアプローチでは母集団からの学習に問題が生じる可能性があることを示唆しています。
多様な視点を持つアノテーターの集まりです。
要約(オリジナル)
Learning from human feedback (LHF) — and in particular learning from pairwise preferences — has recently become a crucial ingredient in training large language models (LLMs), and has been the subject of much research. Most recent works frame it as a reinforcement learning problem, where a reward function is learned from pairwise preference data and the LLM is treated as a policy which is adapted to maximize the rewards, often under additional regularization constraints. We propose an alternative interpretation which centers on the generative process for pairwise preferences and treats LHF as a density estimation problem. We provide theoretical and empirical results showing that for a family of generative processes defined via preference behavior distribution equations, training a reward function on pairwise preferences effectively models an annotator’s implicit preference distribution. Finally, we discuss and present findings on ‘annotator misspecification’ — failure cases where wrong modeling assumptions are made about annotator behavior, resulting in poorly-adapted models — suggesting that approaches that learn from pairwise human preferences could have trouble learning from a population of annotators with diverse viewpoints.
arxiv情報
著者 | Vincent Dumoulin,Daniel D. Johnson,Pablo Samuel Castro,Hugo Larochelle,Yann Dauphin |
発行日 | 2024-01-10 16:11:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google