Hybrid Reinforcement Learning Breaks Sample Size Barriers in Linear MDPs

要約

エージェントがオフライン データセットと未知の環境でのオンライン探索の両方から学習するハイブリッド強化学習 (RL) は、最近大きな関心を集めています。
Xieらによって提起された重要な質問。
(2022) は、ハイブリッド RL が、単一ポリシーの集中性の仮定に依存することなく、純粋なオフラインおよび純粋なオンライン RL で確立された既存の下限を改善できるかどうかです。
一方、リーらは、
(2023) は、表形式の PAC RL ケースでこの質問に対して肯定的な回答を提供しましたが、この質問は、後悔を最小限に抑える RL ケースと非表形式ケースの両方で未解決のままです。
この研究では、オフライン RL と報酬に依存しない探索における最近の進歩に基づいて、単一ポリシーの集中性を持たず、線形関数近似を使用した PAC とリグアレス最小化 RL の両方のための計算効率の高いアルゴリズムを開発します。
これらのアルゴリズムは、オフライン RL (PAC RL 用の最初のアルゴリズム) およびオンライン RL (リグアロング最小化用の 2 番目のアルゴリズム) における最適なサンプル複雑度よりも劣らず、さらに改善できる、より鋭いエラーまたはリグレス境界を達成することを実証します。
RL) は、行動ポリシーの品質に関係なく、線形マルコフ決定プロセス (MDP) で使用されます。
私たちの知る限り、この研究は、線形 MDP のハイブリッド RL に対して現在利用可能な最も厳格な理論的保証を確立します。

要約(オリジナル)

Hybrid Reinforcement Learning (RL), where an agent learns from both an offline dataset and online explorations in an unknown environment, has garnered significant recent interest. A crucial question posed by Xie et al. (2022) is whether hybrid RL can improve upon the existing lower bounds established in purely offline and purely online RL without relying on the single-policy concentrability assumption. While Li et al. (2023) provided an affirmative answer to this question in the tabular PAC RL case, the question remains unsettled for both the regret-minimizing RL case and the non-tabular case. In this work, building upon recent advancements in offline RL and reward-agnostic exploration, we develop computationally efficient algorithms for both PAC and regret-minimizing RL with linear function approximation, without single-policy concentrability. We demonstrate that these algorithms achieve sharper error or regret bounds that are no worse than, and can improve on, the optimal sample complexity in offline RL (the first algorithm, for PAC RL) and online RL (the second algorithm, for regret-minimizing RL) in linear Markov decision processes (MDPs), regardless of the quality of the behavior policy. To our knowledge, this work establishes the tightest theoretical guarantees currently available for hybrid RL in linear MDPs.

arxiv情報

著者 Kevin Tan,Wei Fan,Yuting Wei
発行日 2024-08-08 15:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク