Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment

要約

人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されています。
ただし、元の RLHF は通常、全体的な報酬に基づいて最適化するため、最適ではない学習プロセスが発生する可能性があります。
この制限は、どの特定のトークンを強化または抑制する必要があるかについて RLHF が認識していないことに起因します。
さらに、たとえば、選択された応答には誤ったトークンが含まれているが、拒否された応答には正確な要素が含まれている場合、監視における矛盾が発生する可能性があります。
これらの欠点を修正するために、ステップワイズおよびトークンワイズ RLHF などの高密度報酬手法が提案されています。
ただし、これらの既存の方法は特定のタスク (数学など) に限定されています。
本稿では、さまざまなタスクに堅牢に適用する「Adaptive Message-wise RLHF」手法を提案します。
ピボット トークンを主要な指標として定義することで、私たちのアプローチは重要な情報を適応的に特定し、シーケンス レベルの監視をきめ細かいサブシーケンス レベルの監視に変換します。
これにより、報酬とアクション スペースの密度が入力の情報密度により近くなります。
実験では、私たちの方法がさまざまなトレーニング方法に統合され、幻覚や壊滅的な物忘れの問題を大幅に軽減できると同時に、複数の評価指標で他の方法よりも優れていることが実証されました。
私たちの方法では、サンプルごとのアプローチと比較して、敵対的サンプルの成功率が 10\% 向上し、MMLU、GSM8K、HumanEval などの評価ベンチマークで 1.3\% の向上を達成しました。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) has proven highly effective in aligning Large Language Models (LLMs) with human preferences. However, the original RLHF typically optimizes under an overall reward, which can lead to a suboptimal learning process. This limitation stems from RLHF’s lack of awareness regarding which specific tokens should be reinforced or suppressed. Moreover, conflicts in supervision can arise, for instance, when a chosen response includes erroneous tokens, while a rejected response contains accurate elements. To rectify these shortcomings, increasing dense reward methods, such as step-wise and token-wise RLHF, have been proposed. However, these existing methods are limited to specific tasks (like mathematics). In this paper, we propose the “Adaptive Message-wise RLHF” method, which robustly applies to various tasks. By defining pivot tokens as key indicators, our approach adaptively identifies essential information and converts sequence-level supervision into fine-grained, subsequence-level supervision. This aligns the density of rewards and action spaces more closely with the information density of the input. Experiments demonstrate that our method can be integrated into various training methods, significantly mitigating hallucinations and catastrophic forgetting problems, while outperforming other methods on multiple evaluation metrics. Our method improves the success rate on adversarial samples by 10\% compared to the sample-wise approach, and achieves a 1.3\% improvement on evaluation benchmarks such as MMLU, GSM8K, HumanEval, etc.

arxiv情報

著者 Yanshi Li,Shaopan Xiong,Gengru Chen,Xiaoyang Li,Yijia Luo,Xingyao Zhang,Yanhui Huang,Xingyuan Bu,Yingshui Tan,Chun Yuan,Jiamang Wang,Wenbo Su,Bo Zheng
発行日 2024-12-04 09:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク