Transforming and Combining Rewards for Aligning Large Language Models

要約

言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みのデータから報酬モデルを学習し、次にこの報酬モデルを使用して言語モデルを更新することです。
このアプローチで生じる 2 つの密接に関連する問題を研究します。
まず、報酬モデルの単調変換では優先順位が維持されます。
他のものよりも「より良い」選択肢はありますか?
第二に、私たちは言語モデルを複数のプロパティに合わせたいと思うことがよくあります。複数の報酬モデルをどのように組み合わせるべきでしょうか?
アライメント手順の確率論的解釈を使用して、ブラッドリー-テリー選好モデルから学習された報酬 (の一般的なケース) の変換の自然な選択を特定します。
この派生変換には 2 つの重要な特性があります。
まず、すでに高いスコアを獲得している出力ではなく、パフォーマンスの低い出力を改善することに重点を置いています。
これにより、アンダーフィッティング (一部のプロンプトが改善されない場合) と報酬ハッキング (モデルが報酬モデルの誤った指定を悪用することを学習する場合) の両方が軽減されます。
第 2 に、合計を論理積にリンクすることで、原則に基づいた報酬の集計が可能になります。変換された報酬の合計は、測定されたすべての特性において出力が「良好」である確率に対応し、ある意味、正確になります。
RLHF を使用して言語モデルを有益かつ無害になるように調整する実験では、ベースライン (変換されていない) アプローチと比べて大幅な改善が見られました。

要約(オリジナル)

A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is “better” than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. This derived transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is “good” in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.

arxiv情報

著者 Zihao Wang,Chirag Nagpal,Jonathan Berant,Jacob Eisenstein,Alex D’Amour,Sanmi Koyejo,Victor Veitch
発行日 2024-02-01 16:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2 パーマリンク