Reward-Robust RLHF in LLMs

要約

大規模言語モデル (LLM) がより高度な形式の知能に向けて進歩を続ける中、ヒューマン フィードバックからの強化学習 (RLHF) が汎用人工知能 (AGI) の実現に向けた重要な道筋としてますます注目されています。
ただし、報酬モデルベース (RM ベース) の調整方法への依存は、報酬モデル (RM) に固有の不安定性と不完全性により重大な課題をもたらし、報酬のハッキングや人間の意図とのずれなどの重大な問題につながる可能性があります。
この論文では、これらの基本的な課題に対処し、LLM におけるより信頼性が高く回復力のある学習への道を開くことを目的とした、報酬に堅牢な RLHF フレームワークを紹介します。
私たちのアプローチでは、ベイジアン報酬モデル アンサンブル (BRME) を組み込んで報酬関数の不確実性セットをモデル化することで、パフォーマンスと堅牢性のバランスを慎重に取る新しい最適化目標を導入しています。
これにより、フレームワークは名目上のパフォーマンスと最小報酬シグナルの両方を統合できるようになり、不完全な RM であってもより安定した学習が保証されます。
実証結果は、当社のフレームワークがさまざまなベンチマークにわたって一貫してベースラインを上回り、精度と長期安定性が向上していることを示しています。
また、理論的な分析も提供し、報酬ロバストな RLHF が一定の報酬設定の安定性に近づくことを実証し、これは確率的ケース分析でも許容できることが証明されています。
これらの貢献を総合すると、LLM アライメントのパフォーマンスと安定性の両方を向上させるフレームワークの可能性が強調されます。

要約(オリジナル)

As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect RMs. Empirical results demonstrate that our framework consistently outperforms baselines across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be acceptable even in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment.

arxiv情報

著者 Yuzi Yan,Xingzhou Lou,Jialian Li,Yiping Zhang,Jian Xie,Chao Yu,Yu Wang,Dong Yan,Yuan Shen
発行日 2024-10-16 14:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク