Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs

要約

滑らかなベルマン演算子を持つ連続空間マルコフ決定プロセス (MDP) の一般クラスで $\varepsilon$-optimal ポリシーを学習する問題を考えます。
生成モデルへのアクセスが与えられると、特徴として直交三角多項式を使用して最小二乗値反復の単純な \emph{摂動} バージョンを実行することで、レート最適なサンプルの複雑さを実現します。
私たちのソリューションの鍵となるのは、高調波解析のアイデアに基づいた新しい投影技術です。
~$\widetilde{\mathcal{O}}(\epsilon^{-2-d/(\nu+1)})$ サンプル複雑度。$d$ は状態アクション空間の次元、$\
nu$ は滑らかさの次数で、リプシッツ MDP の特殊なケース $(\nu=0)$ に対する離散化アプローチの最先端の結果を復元します。
同時に、$\nu\to\infty$ では、回帰の影響を受けやすい低ランク MDP の $\mathcal{O}(\epsilon^{-2})$ レートが回復し、大幅に一般化されます。
近づいてきます。
この意味で、私たちの結果は、連続空間 MDP に関する 2 つの一般的だが相反する視点の間のギャップを埋めるものです。

要約(オリジナル)

We consider the problem of learning an $\varepsilon$-optimal policy in a general class of continuous-space Markov decision processes (MDPs) having smooth Bellman operators. Given access to a generative model, we achieve rate-optimal sample complexity by performing a simple, \emph{perturbed} version of least-squares value iteration with orthogonal trigonometric polynomials as features. Key to our solution is a novel projection technique based on ideas from harmonic analysis. Our~$\widetilde{\mathcal{O}}(\epsilon^{-2-d/(\nu+1)})$ sample complexity, where $d$ is the dimension of the state-action space and $\nu$ the order of smoothness, recovers the state-of-the-art result of discretization approaches for the special case of Lipschitz MDPs $(\nu=0)$. At the same time, for $\nu\to\infty$, it recovers and greatly generalizes the $\mathcal{O}(\epsilon^{-2})$ rate of low-rank MDPs, which are more amenable to regression approaches. In this sense, our result bridges the gap between two popular but conflicting perspectives on continuous-space MDPs.

arxiv情報

著者 Davide Maran,Alberto Maria Metelli,Matteo Papini,Marcello Restelli
発行日 2024-05-10 09:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク