Aligning Language Models with Human Preferences via a Bayesian Approach

要約

人間中心の自然言語生成 (NLG) システムを進歩させるには、NLG モデルと人間の好みの整合性を確保することが重要です。
この調整のために、現在一般的な手法は、人間からのフィードバックに基づいてトレーニングされた報酬モデルを使用した強化学習 (RL) アプローチを活用しています。
ただし、人間の好みの主観的な性質に起因する固有の不一致は、報酬モデルのトレーニングに重大な課題をもたらし、NLG パフォーマンスの低下をもたらします。
この問題に取り組むために、以前のアプローチは通常、多数決または平均に依存して、複数の矛盾した設定を 1 つの統合された設定に統合していました。
このような方法は、理解して実行するのが簡単ではありますが、人間間の細分化の微妙な程度を捉えることができないという欠点があり、個人の特殊なサブセットのみを表す可能性があるため、人間の好みの普遍性を定量的に開示する能力に欠けています。
この課題に対処するために、この論文は、嗜好モデルのトレーニングとして人間の嗜好間の不一致の分布を説明するベイジアン フレームワークを採用する新しいアプローチを提案し、それを d-PM と名付けます。
さらに、トレーニング効率よりも RL 戦略の非効率的で複雑なトレーニングプロセスを考慮して、d-PM モデルから導出された選好スコアで NLG モデルをトレーニングするために対照学習戦略を利用することをさらに提案します。
2つの人間中心のNLGタスク、つまり感情的サポートの会話と整合性の「経験則」生成に関する広範な実験により、私たちの方法が自動評価と人間による評価の両方で以前のSOTAモデルを一貫して上回っていることが示されました。

要約(オリジナル)

In the quest to advance human-centric natural language generation (NLG) systems, ensuring alignment between NLG models and human preferences is crucial. For this alignment, current popular methods leverage a reinforcement learning (RL) approach with a reward model trained on feedback from humans. However, inherent disagreements due to the subjective nature of human preferences pose a significant challenge for training the reward model, resulting in a deterioration of the NLG performance. To tackle this issue, previous approaches typically rely on majority voting or averaging to consolidate multiple inconsistent preferences into a merged one. Although straightforward to understand and execute, such methods suffer from an inability to capture the nuanced degrees of disaggregation among humans and may only represent a specialized subset of individuals, thereby lacking the ability to quantitatively disclose the universality of human preferences. To address this challenge, this paper proposes a novel approach, which employs a Bayesian framework to account for the distribution of disagreements among human preferences as training a preference model, and names it as d-PM. Besides, considering the RL strategy’s inefficient and complex training process over the training efficiency, we further propose utilizing the contrastive learning strategy to train the NLG model with the preference scores derived from the d-PM model. Extensive experiments on two human-centric NLG tasks, i.e., emotional support conversation and integrity ‘Rule-of-Thumb’ generation, show that our method consistently exceeds previous SOTA models in both automatic and human evaluations.

arxiv情報

著者 Jiashuo Wang,Haozhao Wang,Shichao Sun,Wenjie Li
発行日 2023-12-22 13:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク