Provable Reward-Agnostic Preference-Based Reinforcement Learning

要約

好みベースの強化学習 (PbRL) は、RL エージェントが、明示的な報酬信号ではなく、軌跡に対するペアごとの好みベースのフィードバックを使用してタスクを最適化する方法を学習するパラダイムです。
PbRL は言語モデルの微調整において実際的な成功を示していますが、既存の理論的研究はリグレスの最小化に焦点を当てており、実用的なフレームワークのほとんどを捉えることができていません。
この研究では、人間のフィードバックを収集する前に、隠れた報酬関数の正確な学習を可能にする探索軌跡を取得する、理論的な報酬に依存しない PbRL フレームワークを提案することで、理論的な PbRL と実際のアルゴリズムの間のギャップを埋めます。
理論分析により、私たちのアルゴリズムは、線形パラメータ化と未知の遷移を伴う好みに基づくモデルの下で最適なポリシーを学習するために、既存の理論文献と比較して人的フィードバックが少なくて済むことが実証されています。
具体的には、私たちのフレームワークは、効率的なサンプルの複雑さを持つ線形および低ランクの MDP を組み込むことができます。
さらに、アクションベースの比較フィードバックによる報酬に依存しない RL を調査し、このシナリオに合わせた効率的なクエリ アルゴリズムを導入します。

要約(オリジナル)

Preference-based Reinforcement Learning (PbRL) is a paradigm in which an RL agent learns to optimize a task using pair-wise preference-based feedback over trajectories, rather than explicit reward signals. While PbRL has demonstrated practical success in fine-tuning language models, existing theoretical work focuses on regret minimization and fails to capture most of the practical frameworks. In this study, we fill in such a gap between theoretical PbRL and practical algorithms by proposing a theoretical reward-agnostic PbRL framework where exploratory trajectories that enable accurate learning of hidden reward functions are acquired before collecting any human feedback. Theoretical analysis demonstrates that our algorithm requires less human feedback for learning the optimal policy under preference-based models with linear parameterization and unknown transitions, compared to the existing theoretical literature. Specifically, our framework can incorporate linear and low-rank MDPs with efficient sample complexity. Additionally, we investigate reward-agnostic RL with action-based comparison feedback and introduce an efficient querying algorithm tailored to this scenario.

arxiv情報

著者 Wenhao Zhan,Masatoshi Uehara,Wen Sun,Jason D. Lee
発行日 2024-04-17 16:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.ML, stat.TH パーマリンク