Efficient Preference-Based Reinforcement Learning: Randomized Exploration Meets Experimental Design

要約

一般的なマルコフ決定プロセスでの人間のフィードバックからの強化学習を研究します。そこでは、エージェントが軌道レベルの好みの比較から学習します。
この設定の中心的な課題は、理論的保証を保証しながら、基礎となる報酬を特定するための有益な優先順位クエリを選択するアルゴリズムを設計することです。
ランダム化された探査に基づいたメタアルゴリズムを提案します。これは、楽観的なアプローチに関連する計算上の課題を回避し、扱いやすいままです。
軽度の強化学習オラクルの仮定の下で、後悔と最終標的の両方の保証を確立します。
クエリの複雑さを改善するために、軌道ペアのバッチを収集し、最適な実験設計を適用して有益な比較クエリを選択する改善されたアルゴリズムを導入および分析します。
また、バッチ構造により、フィードバックを同時に収集できるため、実際の展開に関連する優先クエリの並列化も可能になります。
実証的評価は、提案された方法が少数の優先クエリを必要とする一方で、報酬ベースの強化学習と競争力があることを確認します。

要約(オリジナル)

We study reinforcement learning from human feedback in general Markov decision processes, where agents learn from trajectory-level preference comparisons. A central challenge in this setting is to design algorithms that select informative preference queries to identify the underlying reward while ensuring theoretical guarantees. We propose a meta-algorithm based on randomized exploration, which avoids the computational challenges associated with optimistic approaches and remains tractable. We establish both regret and last-iterate guarantees under mild reinforcement learning oracle assumptions. To improve query complexity, we introduce and analyze an improved algorithm that collects batches of trajectory pairs and applies optimal experimental design to select informative comparison queries. The batch structure also enables parallelization of preference queries, which is relevant in practical deployment as feedback can be gathered concurrently. Empirical evaluation confirms that the proposed method is competitive with reward-based reinforcement learning while requiring a small number of preference queries.

arxiv情報

著者 Andreas Schlaginhaufen,Reda Ouhamma,Maryam Kamgarpour
発行日 2025-06-11 08:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML パーマリンク