Efficient Model-Free Exploration in Low-Rank MDPs

要約

強化学習における主な課題は、一般化と関数近似が必要な高次元領域を探索するための、実用的でサンプル効率の高いアルゴリズムを開発することです。
低ランクのマルコフ決定プロセス (遷移確率により、未知の特徴の埋め込みに基づく低ランクの因数分解が可能) は、関数近似を使用した RL のためのシンプルでありながら表現力豊かなフレームワークを提供しますが、既存のアルゴリズムは、(1) 計算的に扱いにくい、または
(2) 潜在変数構造、モデルベースの関数近似へのアクセス、または到達可能性などの限定的な統計的仮定に依存します。
この研究では、計算効率が高く、モデルフリーであり、一般的な関数近似が可能であり、追加の構造仮定を必要としない、低ランク MDP での探索のための、サンプル効率が証明されている最初のアルゴリズムを提案します。
私たちのアルゴリズム VoX は、探索のための効率的に計算可能な基礎として特徴の埋め込みに重心スパナの概念を使用し、表現学習とポリシー最適化をインターリーブすることによって効率的な重心スパナ計算を実行します。
私たちの分析は、シンプルかつモジュール式であることが魅力で、エラー耐性のある重心スパナ計算への新しいアプローチや、以前の研究で見つかった特定のミニマックス表現学習目標の改良された分析など、いくつかの技術を慎重に組み合わせています。

要約(オリジナル)

A major challenge in reinforcement learning is to develop practical, sample-efficient algorithms for exploration in high-dimensional domains where generalization and function approximation is required. Low-Rank Markov Decision Processes — where transition probabilities admit a low-rank factorization based on an unknown feature embedding — offer a simple, yet expressive framework for RL with function approximation, but existing algorithms are either (1) computationally intractable, or (2) reliant upon restrictive statistical assumptions such as latent variable structure, access to model-based function approximation, or reachability. In this work, we propose the first provably sample-efficient algorithm for exploration in Low-Rank MDPs that is both computationally efficient and model-free, allowing for general function approximation and requiring no additional structural assumptions. Our algorithm, VoX, uses the notion of a barycentric spanner for the feature embedding as an efficiently computable basis for exploration, performing efficient barycentric spanner computation by interleaving representation learning and policy optimization. Our analysis — which is appealingly simple and modular — carefully combines several techniques, including a new approach to error-tolerant barycentric spanner computation and an improved analysis of a certain minimax representation learning objective found in prior work.

arxiv情報

著者 Zakaria Mhammedi,Adam Block,Dylan J. Foster,Alexander Rakhlin
発行日 2024-02-29 15:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク