Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model

要約

タイトル:生成モデルを使用したモデルベース強化学習におけるサンプルサイズの壁の克服
要約:
-強化学習のサンプル効率性に焦点を当てた論文。
-生成モデル(またはシミュレータ)にアクセスがあると仮定した場合を対象としている。
-無限期間のマルコフ決定プロセス(MDP)を研究し、すべての先行研究はサンプルサイズのバリアがあり、統計的保証がある場合、サンプルサイズは少なくとも「(1-ガンマ)*(S*A)/(1-ガンマ)**2」でなければならないと結論づけられてきた。
-本論文では、2つのアルゴリズム(摂動モデルベースアルゴリズムと保守的モデルベースアルゴリズム)の最小最適性が、サンプルサイズが「(1-ガンマ)*(S*A)/(1-ガンマ)」のオーダーである場合に保証されることを証明。これにより、従来のサンプルサイズのバリアが克服された。
-さらに、時間非均質な有限期間のMDPを研究し、任意の目標精度レベルで最小最適サンプル複雑性を達成するには、単純なモデルベース計画アルゴリズムだけで十分であることを証明。
-本論文は、サンプルサイズの範囲が意味論上不可能であるという点を超えた初めての最小最適性の保証を提供する。

要約(オリジナル)

This paper is concerned with the sample efficiency of reinforcement learning, assuming access to a generative model (or simulator). We first consider $\gamma$-discounted infinite-horizon Markov decision processes (MDPs) with state space $\mathcal{S}$ and action space $\mathcal{A}$. Despite a number of prior works tackling this problem, a complete picture of the trade-offs between sample complexity and statistical accuracy is yet to be determined. In particular, all prior results suffer from a severe sample size barrier, in the sense that their claimed statistical guarantees hold only when the sample size exceeds at least $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^2}$. The current paper overcomes this barrier by certifying the minimax optimality of two algorithms — a perturbed model-based algorithm and a conservative model-based algorithm — as soon as the sample size exceeds the order of $\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}$ (modulo some log factor). Moving beyond infinite-horizon MDPs, we further study time-inhomogeneous finite-horizon MDPs, and prove that a plain model-based planning algorithm suffices to achieve minimax-optimal sample complexity given any target accuracy level. To the best of our knowledge, this work delivers the first minimax-optimal guarantees that accommodate the entire range of sample sizes (beyond which finding a meaningful policy is information theoretically infeasible).

arxiv情報

著者 Gen Li,Yuting Wei,Yuejie Chi,Yuxin Chen
発行日 2023-04-17 15:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, math.IT, math.OC, math.ST, stat.ML, stat.TH パーマリンク