Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis

要約

この論文では、一般的な軌道ごとの報酬モデルを使用したエピソード的なマルコフ決定プロセスの下で、ヒューマンフィードバックからの強化学習 (RLHF) を研究します。
私たちは、明示的な報酬モデル推論を行わずに、$\mathsf{BSAD}$ と呼ばれるモデルフリーの RLHF 最適ポリシー識別アルゴリズムを開発しました。これは、大規模言語モデル (LLM) をトレーニングするための現代の RLHF パラダイムにおける重要な中間ステップです。
このアルゴリズムは、常にアクションを決闘させてより優れたアクションを特定する決闘バンディット サブルーチンを使用して、人間の好みの情報から直接最適なポリシーを逆方向に特定します。
$\mathsf{BSAD}$ は、報酬なしの探索とベストアーム識別のような適応停止基準を採用し、最適なアクションが識別可能になるとすぐに前のステップに移動しながら、同じ決定ステップ内のすべての状態間の訪問を均等化します。
、証明可能なインスタンス依存のサンプルの複雑さにつながる
$\tilde{\mathcal{O}}(c_{\mathcal{M}}SA^3H^3M\log\frac{1}{\delta})$ これは古典的な RL の結果に似ています。ここで $c_{\
mathcal{M}}$ はインスタンス依存の定数、$M$ はバッチ サイズです。
さらに、$\mathsf{BSAD}$ は、対数リグレスを備えた探索後コミット アルゴリズムに変換でき、フレームベースのアプローチを使用して割引 MDP に一般化できます。
私たちの結果は、(i) サンプルの複雑さの点で、RLHF は従来の RL よりもそれほど難しくないこと、(ii) エンドツーエンドの RLHF は、過剰適合や分布シフトなどの報酬推論の落とし穴を回避することでパフォーマンスの向上を実現できる可能性があることを示しています。

要約(オリジナル)

In this paper, we study reinforcement learning from human feedback (RLHF) under an episodic Markov decision process with a general trajectory-wise reward model. We developed a model-free RLHF best policy identification algorithm, called $\mathsf{BSAD}$, without explicit reward model inference, which is a critical intermediate step in the contemporary RLHF paradigms for training large language models (LLM). The algorithm identifies the optimal policy directly from human preference information in a backward manner, employing a dueling bandit sub-routine that constantly duels actions to identify the superior one. $\mathsf{BSAD}$ adopts a reward-free exploration and best-arm-identification-like adaptive stopping criteria to equalize the visitation among all states in the same decision step while moving to the previous step as soon as the optimal action is identifiable, leading to a provable, instance-dependent sample complexity $\tilde{\mathcal{O}}(c_{\mathcal{M}}SA^3H^3M\log\frac{1}{\delta})$ which resembles the result in classic RL, where $c_{\mathcal{M}}$ is the instance-dependent constant and $M$ is the batch size. Moreover, $\mathsf{BSAD}$ can be transformed into an explore-then-commit algorithm with logarithmic regret and generalized to discounted MDPs using a frame-based approach. Our results show: (i) sample-complexity-wise, RLHF is not significantly harder than classic RL and (ii) end-to-end RLHF may deliver improved performance by avoiding pitfalls in reward inferring such as overfit and distribution shift.

arxiv情報

著者 Qining Zhang,Honghao Wei,Lei Ying
発行日 2025-01-21 14:53:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク