Settling the Sample Complexity of Online Reinforcement Learning

要約

オンライン強化学習 (RL) の中心にある中心的な問題は、データ効率です。
最近の研究の多くは、オンライン RL において漸近的に最小の後悔を達成しましたが、これらの結果の最適性は「大サンプル」領域でのみ保証されており、アルゴリズムが最適に動作するためには膨大なバーンイン コストが課せられます。
バーンイン コストをまったく発生させずにミニマックス最適リグレアメントを達成する方法は、RL 理論における未解決の問題です。
我々は、有限地平線の不均一マルコフ決定プロセスの文脈でこの問題を解決します。
具体的には、\cite{zhang2020reinforcement} によって提案されたモデルベースのアルゴリズムである単調値伝播 (MVP) の修正バージョンが、(モジュロ対数因子) \begin{equation*} \min\ のオーダーのリグレットを達成することを証明します。
big\{ \sqrt{SAH^3K}, \,HK \big\}, \end{equation*} ここで、$S$ は状態の数、$A$ はアクションの数、$H$ は計画です
$K$ はエピソードの合計数です。
この後悔は、サンプル サイズ $K\geq 1$ の全範囲のミニマックス下限と一致し、本質的にバーンイン要件を排除します。
また、PAC サンプルの複雑さ (つまり、$\varepsilon$-精度を得るために必要なエピソードの数) は、$\frac{SAH^3}{\varepsilon^2}$ から対数因子まで (最小値) になります。
$\varepsilon$ の範囲全体に最適です。
さらに、理論を拡張して、最適値/コストや特定の分散など、問題に依存する量の影響を明らかにします。
重要な技術革新は、複雑な統計的依存性を切り離すための新しい後悔分解戦略と新しい分析パラダイムの開発にあります。これは、サンプルを大量に消費する体制におけるオンライン RL 分析が直面する長年の課題です。

要約(オリジナル)

A central issue lying at the heart of online reinforcement learning (RL) is data efficiency. While a number of recent works achieved asymptotically minimal regret in online RL, the optimality of these results is only guaranteed in a “large-sample” regime, imposing enormous burn-in cost in order for their algorithms to operate optimally. How to achieve minimax-optimal regret without incurring any burn-in cost has been an open problem in RL theory. We settle this problem for the context of finite-horizon inhomogeneous Markov decision processes. Specifically, we prove that a modified version of Monotonic Value Propagation (MVP), a model-based algorithm proposed by \cite{zhang2020reinforcement}, achieves a regret on the order of (modulo log factors) \begin{equation*} \min\big\{ \sqrt{SAH^3K}, \,HK \big\}, \end{equation*} where $S$ is the number of states, $A$ is the number of actions, $H$ is the planning horizon, and $K$ is the total number of episodes. This regret matches the minimax lower bound for the entire range of sample size $K\geq 1$, essentially eliminating any burn-in requirement. It also translates to a PAC sample complexity (i.e., the number of episodes needed to yield $\varepsilon$-accuracy) of $\frac{SAH^3}{\varepsilon^2}$ up to log factor, which is minimax-optimal for the full $\varepsilon$-range. Further, we extend our theory to unveil the influences of problem-dependent quantities like the optimal value/cost and certain variances. The key technical innovation lies in the development of a new regret decomposition strategy and a novel analysis paradigm to decouple complicated statistical dependency — a long-standing challenge facing the analysis of online RL in the sample-hungry regime.

arxiv情報

著者 Zihan Zhang,Yuxin Chen,Jason D. Lee,Simon S. Du
発行日 2023-07-25 15:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク