Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions

要約

サンプル効率が良く、計算可能な強化学習(RL)アルゴリズムの設計は、状態空間や行動空間が大きい、あるいは無限である環境では特に困難である。本論文では、任意のポリシーの状態-行動価値関数が与えられた特徴マップにおいて線形であるマルコフ決定過程(MDP)に対する効率的なアルゴリズムを提示することで、この取り組みを前進させる。この挑戦的な設定は、無限の状態と行動を持つ環境をモデル化することができ、古典的な線形MDPを厳密に一般化する。具体的には、問題パラメータに対して多項式である、エピソード数とコスト依存分類(CSC)オラクルへのコールを用いて、この設定において効率的に最適に近いポリシーを発見する新しいRLアルゴリズムを紹介する。注目すべきことに、我々のCSCオラクルは、特徴次元が一定である場合に効率的に実装可能であり、ホライズン多変数を持つ非凸問題を解く必要があり、ホライズンに対して指数関数的な計算コストが発生する可能性のある最新の手法に対して明らかな改善を示す。

要約(オリジナル)

Designing sample-efficient and computationally feasible reinforcement learning (RL) algorithms is particularly challenging in environments with large or infinite state and action spaces. In this paper, we advance this effort by presenting an efficient algorithm for Markov Decision Processes (MDPs) where the state-action value function of any policy is linear in a given feature map. This challenging setting can model environments with infinite states and actions, strictly generalizes classic linear MDPs, and currently lacks a computationally efficient algorithm under online access to the MDP. Specifically, we introduce a new RL algorithm that efficiently finds a near-optimal policy in this setting, using a number of episodes and calls to a cost-sensitive classification (CSC) oracle that are both polynomial in the problem parameters. Notably, our CSC oracle can be efficiently implemented when the feature dimension is constant, representing a clear improvement over state-of-the-art methods, which require solving non-convex problems with horizon-many variables and can incur computational costs that are exponential in the horizon.

arxiv情報

著者 Zakaria Mhammedi
発行日 2024-10-03 16:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク