Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning

要約

この論文では、オフライン データセットへのアクセスと未知の環境とのオンライン インタラクションの両方を想定したハイブリッド設定での表形式強化学習 (RL) を研究します。
中心となる問題は、オンライン データ収集を効率的に利用してオフライン データセットを強化および補完し、効果的なポリシーの微調整を可能にする方法に集約されます。
報酬にとらわれない探索とモデルベースのオフライン RL における最近の進歩を活用して、サンプルの複雑さの点で純粋なオフライン RL と純粋なオンライン RL の両方の長所を上回る 3 段階のハイブリッド RL アルゴリズムを設計します。
提案されたアルゴリズムは、データ収集中に報酬情報を必要としません。
私たちの理論は、単一ポリシーの部分集中性と呼ばれる新しい概念に基づいて開発されており、分布の不一致とミスカバレッジの間のトレードオフを捉え、オフライン データとオンライン データの間の相互作用を導きます。

要約(オリジナル)

This paper studies tabular reinforcement learning (RL) in the hybrid setting, which assumes access to both an offline dataset and online interactions with the unknown environment. A central question boils down to how to efficiently utilize online data collection to strengthen and complement the offline dataset and enable effective policy fine-tuning. Leveraging recent advances in reward-agnostic exploration and model-based offline RL, we design a three-stage hybrid RL algorithm that beats the best of both worlds — pure offline RL and pure online RL — in terms of sample complexities. The proposed algorithm does not require any reward information during data collection. Our theory is developed based on a new notion called single-policy partial concentrability, which captures the trade-off between distribution mismatch and miscoverage and guides the interplay between offline and online data.

arxiv情報

著者 Gen Li,Wenhao Zhan,Jason D. Lee,Yuejie Chi,Yuxin Chen
発行日 2023-05-17 15:17:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH パーマリンク