Improved Sample Complexity Analysis of Natural Policy Gradient Algorithm with General Parameterization for Infinite Horizon Discounted Reward Markov Decision Processes

要約

本論文では、無限地平割引報酬マルコフ決定過程(Markov Decision Process)に対するサンプル効率の良い学習アルゴリズムを設計する問題を考察する。具体的には、自然政策勾配を得るために加速確率勾配降下過程を利用する加速自然政策勾配(Accelerated Natural Policy Gradient; ANPG)アルゴリズムを提案する。ANPGは、$mathcal{O}({epsilon^{-2}})$サンプル複雑度と$mathcal{O}(epsilon^{-1})$反復複雑度を達成する。これは、最新のサンプル複雑度を$log( \frac{1}{epsilon})$ 倍改善する。ANPGは一次アルゴリズムであり、いくつかの既存文献と異なり、重要度サンプリング(IS)の重みの分散が上界であるという検証不可能な仮定を必要としない。Hessian-freeアルゴリズムとIS-freeアルゴリズムのクラスにおいて、ANPGは$mathcal{O}(epsilon^{-frac{1}{2}})$のファクターで最もよく知られたサンプル複雑度を打ち負かし、同時にそれらの最新の反復複雑度と一致する。

要約(オリジナル)

We consider the problem of designing sample efficient learning algorithms for infinite horizon discounted reward Markov Decision Process. Specifically, we propose the Accelerated Natural Policy Gradient (ANPG) algorithm that utilizes an accelerated stochastic gradient descent process to obtain the natural policy gradient. ANPG achieves $\mathcal{O}({\epsilon^{-2}})$ sample complexity and $\mathcal{O}(\epsilon^{-1})$ iteration complexity with general parameterization where $\epsilon$ defines the optimality error. This improves the state-of-the-art sample complexity by a $\log(\frac{1}{\epsilon})$ factor. ANPG is a first-order algorithm and unlike some existing literature, does not require the unverifiable assumption that the variance of importance sampling (IS) weights is upper bounded. In the class of Hessian-free and IS-free algorithms, ANPG beats the best-known sample complexity by a factor of $\mathcal{O}(\epsilon^{-\frac{1}{2}})$ and simultaneously matches their state-of-the-art iteration complexity.

arxiv情報

著者 Washim Uddin Mondal,Vaneet Aggarwal
発行日 2024-02-05 15:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク