Efficient Model-Free Exploration in Low-Rank MDPs


低ランクのマルコフ決定プロセス (遷移確率により、未知の特徴の埋め込みに基づく低ランクの因数分解が可能) は、関数近似を使用した RL のためのシンプルでありながら表現力豊かなフレームワークを提供しますが、既存のアルゴリズムは、(1) 計算的に扱いにくい、または
(2) 潜在変数構造、モデルベースの関数近似へのアクセス、または到達可能性などの限定的な統計的仮定に依存します。
この研究では、計算効率が高く、モデルフリーであり、一般的な関数近似が可能であり、追加の構造仮定を必要としない、低ランク MDP での探索のための、サンプル効率が証明されている最初のアルゴリズムを提案します。
私たちのアルゴリズム VoX は、探索のための効率的に計算可能な基礎として特徴の埋め込みに重心スパナの概念を使用し、表現学習とポリシー最適化をインターリーブすることによって効率的な重心スパナ計算を実行します。


A major challenge in reinforcement learning is to develop practical, sample-efficient algorithms for exploration in high-dimensional domains where generalization and function approximation is required. Low-Rank Markov Decision Processes — where transition probabilities admit a low-rank factorization based on an unknown feature embedding — offer a simple, yet expressive framework for RL with function approximation, but existing algorithms are either (1) computationally intractable, or (2) reliant upon restrictive statistical assumptions such as latent variable structure, access to model-based function approximation, or reachability. In this work, we propose the first provably sample-efficient algorithm for exploration in Low-Rank MDPs that is both computationally efficient and model-free, allowing for general function approximation and requiring no additional structural assumptions. Our algorithm, VoX, uses the notion of a barycentric spanner for the feature embedding as an efficiently computable basis for exploration, performing efficient barycentric spanner computation by interleaving representation learning and policy optimization. Our analysis — which is appealingly simple and modular — carefully combines several techniques, including a new approach to error-tolerant barycentric spanner computation and an improved analysis of a certain minimax representation learning objective found in prior work.


著者 Zakaria Mhammedi,Adam Block,Dylan J. Foster,Alexander Rakhlin
発行日 2024-02-29 15:40:41+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.LG, math.OC パーマリンク