要約
シミュレータは強化学習において広く普及しているツールですが、既存のアルゴリズムのほとんどは、特に一般関数近似を必要とする高次元領域において、シミュレータへのアクセスを効率的に利用できません。
私たちは、{ローカル シミュレーター アクセス} (またはローカル プランニング) を使用したオンライン強化学習を通じてシミュレーターの力を探ります。これは、エージェントが以前に観察された状態にリセットし、トレーニング中にダイナミクスを追跡できる RL プロトコルです。
私たちは、ローカル シミュレーター アクセスを使用して、以前は手の届かなかった新しい統計的保証を解き放ちます。 – ブロック MDP と低ランク MDP を包含する一般的な構造条件であるカバレージが低い MDP (Xie et al. 2023) が、
$Q^{\star}$-realizability (最適な状態値関数の実現可能性) のみを使用してサンプル効率的な方法で学習できます。
既存のオンライン RL アルゴリズムには、非常に強力な表現条件が必要です。
– 結果として、悪名高い Exogenous Block MDP 問題 (Efroni et al. 2022) がローカル シミュレータ アクセス下で対処可能であることを示します。
上記の結果は、計算効率の悪いアルゴリズムによって得られます。
これらを、より計算効率の高いアルゴリズムである RVFS (Recursive Value Function Search) で補完します。これは、プッシュフォワード カバレッジとして知られる強化された統計的仮定の下で、証明可能なサンプルの複雑さの保証を実現します。
RVFS は、再帰的検索 (MCTS など) と値関数近似を組み合わせた、成功した経験的パラダイムに対する原理的で証明可能な対応物とみなすことができます。
要約(オリジナル)
Simulators are a pervasive tool in reinforcement learning, but most existing algorithms cannot efficiently exploit simulator access — particularly in high-dimensional domains that require general function approximation. We explore the power of simulators through online reinforcement learning with {local simulator access} (or, local planning), an RL protocol where the agent is allowed to reset to previously observed states and follow their dynamics during training. We use local simulator access to unlock new statistical guarantees that were previously out of reach: – We show that MDPs with low coverability (Xie et al. 2023) — a general structural condition that subsumes Block MDPs and Low-Rank MDPs — can be learned in a sample-efficient fashion with only $Q^{\star}$-realizability (realizability of the optimal state-value function); existing online RL algorithms require significantly stronger representation conditions. – As a consequence, we show that the notorious Exogenous Block MDP problem (Efroni et al. 2022) is tractable under local simulator access. The results above are achieved through a computationally inefficient algorithm. We complement them with a more computationally efficient algorithm, RVFS (Recursive Value Function Search), which achieves provable sample complexity guarantees under a strengthened statistical assumption known as pushforward coverability. RVFS can be viewed as a principled, provable counterpart to a successful empirical paradigm that combines recursive search (e.g., MCTS) with value function approximation.
arxiv情報
著者 | Zakaria Mhammedi,Dylan J. Foster,Alexander Rakhlin |
発行日 | 2024-04-26 14:31:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google