Bayesian Reward Models for LLM Alignment

要約

大規模言語モデル (LLM) の応答が有益で無害であることを保証するために、通常、人間の好みのデータに基づいて報酬モデルを微調整します。
次に、高い報酬を持つポリシー応答を選択するか (ベストオブ n サンプリング)、ポリシーをさらに最適化して高い報酬を持つ応答を生成します (人間のフィードバックからの強化学習)。
ただし、このプロセスは報酬の過剰最適化やハッキングに対して脆弱であり、選択された応答には、真の好みではなく報酬モデルのエラーにより高い報酬が与えられます。
これは、プロンプトまたは応答がトレーニング データと異なる場合に特に問題になります。
これらの問題は、トレーニング データの分布からさらに高い不確実性を示すベイジアン報酬モデルをトレーニングすることで軽減できるはずです。
したがって、Laplace-LoRAを使用してベイジアン報酬モデルをトレーニングし(Yang et al.、2024)、結果として得られる不確実性推定により、ベストオブnサンプリングにおける報酬の過剰最適化を首尾よく緩和できることがわかりました。

要約(オリジナル)

To ensure that large language model (LLM) responses are helpful and non-toxic, we usually fine-tune a reward model on human preference data. We then select policy responses with high rewards (best-of-n sampling) or further optimize the policy to produce responses with high rewards (reinforcement learning from human feedback). However, this process is vulnerable to reward overoptimization or hacking, in which the responses selected have high rewards due to errors in the reward model rather than a genuine preference. This is especially problematic as the prompt or response diverges from the training data. It should be possible to mitigate these issues by training a Bayesian reward model, which signals higher uncertainty further from the training data distribution. Therefore, we trained Bayesian reward models using Laplace-LoRA (Yang et al., 2024) and found that the resulting uncertainty estimates can successfully mitigate reward overoptimization in best-of-n sampling.

arxiv情報

著者 Adam X. Yang,Maxime Robeyns,Thomas Coste,Jun Wang,Haitham Bou-Ammar,Laurence Aitchison
発行日 2024-02-20 18:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク