Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、言語モデルを人間中心の価値観と密接に一致させる極めて重要な手法です。
RLHF の初期段階では、ランキング データからの報酬モデルを使用して人間の価値観を学習します。
報酬モデルのパフォーマンスはトレーニングの 1 エポック後に低下することが観察されており、学習された報酬モデルに対して過度に最適化すると、最終的には真の目的が妨げられます。
この論文では、理論的な洞察を活用して、「反復データ スムージング」(IDS) と呼ばれる改善された報酬学習アルゴリズムを設計し、これらの問題を詳しく掘り下げます。
中心となるアイデアは、各トレーニング エポック中に、データでモデルを更新するだけでなく、モデルを使用して日付も更新し、ハード ラベルをソフト ラベルに置き換えることです。
私たちの経験的な調査結果は、このアプローチが従来の方法よりも優れたパフォーマンスを発揮することを強調しています。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is a pivotal technique that aligns language models closely with human-centric values. The initial phase of RLHF involves learning human values using a reward model from ranking data. It is observed that the performance of the reward model degrades after one epoch of training, and optimizing too much against the learned reward model eventually hinders the true objective. This paper delves into these issues, leveraging the theoretical insights to design improved reward learning algorithm termed ‘Iterative Data Smoothing’ (IDS). The core idea is that during each training epoch, we not only update the model with the data, but also update the date using the model, replacing hard labels with soft labels. Our empirical findings highlight the superior performance of this approach over the traditional methods.

arxiv情報

著者 Banghua Zhu,Michael I. Jordan,Jiantao Jiao
発行日 2024-01-29 17:43:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク