WARM: On the Benefits of Weight Averaged Reward Models

要約

強化学習 (RLHF) を通じて大規模言語モデル (LLM) を人間の好みに合わせると、報酬ハッキングが発生する可能性があります。報酬ハッキングでは、LLM が報酬モデル (RM) の失敗を利用して、根本的な目的を達成せずに一見高額な報酬を獲得します。
報酬ハッキングを軽減するために RM を設計する際、私たちは 2 つの主な課題を特定します。それは、RL プロセス中の分布の変化と人間の好みの不一致です。
解決策として、最初に複数の RM を微調整し、次にそれらを重み空間で平均する加重平均報酬モデル (WARM) を提案します。
この戦略は、同じ事前トレーニングを共有する場合、微調整された重みが線形モード接続を維持するという観察に基づいています。
WARM は重みを平均化することで、従来の予測のアンサンブルと比較して効率を向上させると同時に、分布の変化の下での信頼性と優先順位の不一致に対する堅牢性を向上させます。
Best-of-N および RL 手法を使用した要約タスクの実験では、WARM が LLM 予測の全体的な品質と整合性を向上させることが示されています。
たとえば、WARM で微調整されたポリシー RL は、単一の RM で微調整されたポリシー RL に対して 79.4% の勝率を示します。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.

arxiv情報

著者 Alexandre Ramé,Nino Vieillard,Léonard Hussenot,Robert Dadashi,Geoffrey Cideron,Olivier Bachem,Johan Ferret
発行日 2024-01-22 18:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク