Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning

要約

強化学習 (RL) は大規模言語モデル (LLM) の調整に不可欠であることが証明されていますが、報酬の過剰最適化 (ROO) につながる可能性があります。
既存のアプローチでは、KL 正則化を追加することで ROO に対処しており、計算コストのかかるハイパーパラメータの調整が必要です。
さらに、KL 正則化は言語ポリシーの正則化のみに焦点を当てており、正則化の潜在的なソースである報酬関数自体を無視しています。
ここでは、デモンストレーションに基づいた RL からインスピレーションを得て、人間によるデモンストレーションと報酬モデルを活用して報酬目標を再調整する、デモンストレーションによる報酬キャリブレーション (RCfD) を紹介します。
正式には、プロンプトが与えられた場合、RCfD の目標は、報酬関数を直接最大化するのではなく、デモンストレーションの報酬と LLM の報酬の間の距離を最小化します。
この目的の変更により、LLM が報酬モデルを利用するよう奨励されることが回避され、より自然で多様な言語生成が促進されます。
3 つの言語タスクに対する RCfD の有効性を示します。これにより、ROO を軽減しながら、慎重に調整されたベースラインと同等のパフォーマンスが達成されます。

要約(オリジナル)

While Reinforcement Learning (RL) has been proven essential for tuning large language models (LLMs), it can lead to reward over-optimization (ROO). Existing approaches address ROO by adding KL regularization, requiring computationally expensive hyperparameter tuning. Additionally, KL regularization focuses solely on regularizing the language policy, neglecting a potential source of regularization: the reward function itself. Inspired by demonstration-guided RL, we here introduce the Reward Calibration from Demonstration (RCfD), which leverages human demonstrations and a reward model to recalibrate the reward objective. Formally, given a prompt, the RCfD objective minimizes the distance between the demonstrations’ and LLM’s rewards rather than directly maximizing the reward function. This objective shift avoids incentivizing the LLM to exploit the reward model and promotes more natural and diverse language generation. We show the effectiveness of RCfD on three language tasks, which achieves comparable performance to carefully tuned baselines while mitigating ROO.

arxiv情報

著者 Mathieu Rita,Florian Strub,Rahma Chaabouni,Paul Michel,Emmanuel Dupoux,Olivier Pietquin
発行日 2024-04-30 09:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク