Optimal Convergence Rate for Exact Policy Mirror Descent in Discounted Markov Decision Processes

要約

表形式の強化学習 (Value Iteration および Policy Iteration) で使用される従来のアルゴリズムは、割引マルコフ決定プロセスの割引係数 $\gamma$ によって与えられるレートで線形に収束することが示されています。
最近、勾配ベースの方法の研究への関心が高まっています。
この作業では、古典的な強化学習アルゴリズムの次元のない線形 $\gamma$ レートが、適応ステップ サイズの下で非正則化 Policy Mirror Descent (PMD) アルゴリズムの一般的なファミリによって達成できることを示します。
また、$\gamma$ レートが PMD メソッドに最適であることを示す、一致する最悪のケースの下限も提供します。
私たちの仕事は、PMD の収束に関する新しい視点を提供します。
反復の単調な改善を確立することを超えて、パフォーマンス差レンマの使用を避けます。これは、独立した関心のある単純な分析につながります。
また、分析を不正確な設定に拡張し、生成モデルの下で正則化されていない PMD の最初の次元のない $\varepsilon$ 最適なサンプルの複雑さを確立し、最もよく知られている結果を改善します。

要約(オリジナル)

The classical algorithms used in tabular reinforcement learning (Value Iteration and Policy Iteration) have been shown to converge linearly with a rate given by the discount factor $\gamma$ of a discounted Markov Decision Process. Recently, there has been an increased interest in the study of gradient based methods. In this work, we show that the dimension-free linear $\gamma$-rate of classical reinforcement learning algorithms can be achieved by a general family of unregularised Policy Mirror Descent (PMD) algorithms under an adaptive step-size. We also provide a matching worst-case lower-bound that demonstrates that the $\gamma$-rate is optimal for PMD methods. Our work offers a novel perspective on the convergence of PMD. We avoid the use of the performance difference lemma beyond establishing the monotonic improvement of the iterates, which leads to a simple analysis that may be of independent interest. We also extend our analysis to the inexact setting and establish the first dimension-free $\varepsilon$-optimal sample complexity for unregularised PMD under a generative model, improving upon the best-known result.

arxiv情報

著者 Emmeran Johnson,Ciara Pike-Burke,Patrick Rebeschini
発行日 2023-02-22 13:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.TH パーマリンク