Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model

要約

この論文は、生成モデル(またはシミュレータ)へのアクセスを想定して、強化学習のサンプル効率に関係しています。
最初に、状態空間 $\mathcal{S}$ とアクション空間 $\mathcal{A}$ を持つ $\gamma$ 割引無限期間マルコフ決定過程 (MDP) を考えます。
この問題に取り組む多くの以前の研究にもかかわらず、サンプルの複雑さと統計的精度の間のトレードオフの全体像はまだ決定されていません。
特に、以前の結果はすべて、標本サイズが少なくとも $\frac{|\mathcal{S}||\mathcal{A}|} を超えた場合にのみ、主張されている統計的保証が成立するという意味で、厳しい標本サイズの壁に悩まされています。
{(1-\gamma)^2}$.
サンプルサイズが $\frac{|\mathcal{S
}||\mathcal{A}|}{1-\gamma}$ (いくつかの対数係数を法とする)。
無限の地平線 MDP を超えて、時間不均一な有限の地平線 MDP をさらに研究し、単純なモデルベースの計画アルゴリズムが、任意の目標精度レベルでミニマックス最適サンプルの複雑さを達成するのに十分であることを証明します。
私たちの知る限り、この作業は、サンプルサイズの範囲全体に対応する最初のミニマックス最適保証を提供します (これを超えると、意味のあるポリシーを見つけることは理論的に実行不可能な情報です)。

要約(オリジナル)

This paper is concerned with the sample efficiency of reinforcement learning, assuming access to a generative model (or simulator). We first consider $\gamma$-discounted infinite-horizon Markov decision processes (MDPs) with state space $\mathcal{S}$ and action space $\mathcal{A}$. Despite a number of prior works tackling this problem, a complete picture of the trade-offs between sample complexity and statistical accuracy is yet to be determined. In particular, all prior results suffer from a severe sample size barrier, in the sense that their claimed statistical guarantees hold only when the sample size exceeds at least $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^2}$. The current paper overcomes this barrier by certifying the minimax optimality of two algorithms — a perturbed model-based algorithm and a conservative model-based algorithm — as soon as the sample size exceeds the order of $\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}$ (modulo some log factor). Moving beyond infinite-horizon MDPs, we further study time-inhomogeneous finite-horizon MDPs, and prove that a plain model-based planning algorithm suffices to achieve minimax-optimal sample complexity given any target accuracy level. To the best of our knowledge, this work delivers the first minimax-optimal guarantees that accommodate the entire range of sample sizes (beyond which finding a meaningful policy is information theoretically infeasible).

arxiv情報

著者 Gen Li,Yuting Wei,Yuejie Chi,Yuxin Chen
発行日 2023-03-17 16:08:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.OC, math.ST, stat.ML, stat.TH パーマリンク