Active Coverage for PAC Reinforcement Learning

要約

良好なカバレッジ特性を持つデータを収集して活用することは、報酬なしの探索やオフライン学習などの強化学習 (RL) のさまざまな側面で重要な役割を果たします。
ただし、あるコンテキストに適したデータが別のコンテキストには適さない可能性があるため、「良好なカバレッジ」という概念は実際に使用するアプリケーションに依存します。
この論文では、エピソード的なマルコフ決定プロセス (MDP) におけるアクティブ カバレッジの問題を形式化します。MDP の目的は、与えられたサンプリング要件を満たすように環境と対話することです。
このフレームワークは、必要なカバレッジ プロパティを指定するのに十分な柔軟性を備えているため、オンライン探索を伴うあらゆる問題に適用できます。
私たちの主な貢献は、アクティブ カバレッジのサンプル複雑さのインスタンス依存の下限と、それにほぼ一致する単純なゲーム理論アルゴリズム CovGame です。
次に、CovGame をビルディング ブロックとして使用して、さまざまな PAC RL タスクを解決できることを示します。
特に、「探索しやすい」特定の MDP ではミニマックス アルゴリズムよりも低い、インスタンスに依存するサンプルの複雑さを備えた PAC 報酬なし探索のための単純なアルゴリズムが得られます。
この探索アルゴリズムを、ポリシー空間で暗黙的な消去を行う新しい手法とさらに組み合わせることで、インスタンスに依存するサンプルの複雑さがポリシー値間のギャップに応じてスケールされる最適なポリシー識別のための計算効率の高いアルゴリズムが得られます。

要約(オリジナル)

Collecting and leveraging data with good coverage properties plays a crucial role in different aspects of reinforcement learning (RL), including reward-free exploration and offline learning. However, the notion of ‘good coverage’ really depends on the application at hand, as data suitable for one context may not be so for another. In this paper, we formalize the problem of active coverage in episodic Markov decision processes (MDPs), where the goal is to interact with the environment so as to fulfill given sampling requirements. This framework is sufficiently flexible to specify any desired coverage property, making it applicable to any problem that involves online exploration. Our main contribution is an instance-dependent lower bound on the sample complexity of active coverage and a simple game-theoretic algorithm, CovGame, that nearly matches it. We then show that CovGame can be used as a building block to solve different PAC RL tasks. In particular, we obtain a simple algorithm for PAC reward-free exploration with an instance-dependent sample complexity that, in certain MDPs which are ‘easy to explore’, is lower than the minimax one. By further coupling this exploration algorithm with a new technique to do implicit eliminations in policy space, we obtain a computationally-efficient algorithm for best-policy identification whose instance-dependent sample complexity scales with gaps between policy values.

arxiv情報

著者 Aymen Al-Marjani,Andrea Tirinzoni,Emilie Kaufmann
発行日 2023-06-23 16:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク