要約
この研究では、$\gamma$ 割引された無限水平表形式マルコフ決定プロセス (MDP) を研究し、動的政策勾配 (DynPG) と呼ばれるフレームワークを導入します。
このフレームワークは、動的プログラミングを (任意の) ポリシー勾配法と直接統合し、環境のマルコフ特性を明示的に利用します。
DynPG はトレーニング中に問題のホライズンを動的に調整し、元の無限のホライズン MDP を一連のコンテキスト バンディット問題に分解します。
これらのコンテキスト バンディットを反復的に解決することにより、DynPG は無限地平線 MDP の定常最適ポリシーに収束します。
DynPG の能力を実証するために、MDP の顕著だが重要なパラメーターへの依存関係に焦点を当て、表形式のソフトマックス パラメーター化の下でその非漸近的なグローバル収束率を確立します。
動的計画法の古典的な引数と、ポリシー勾配スキームのより最近の収束引数を組み合わせることで、ソフトマックス DynPG が有効範囲 $(1-\gamma)^{-1}$ 内で多項式にスケーリングすることを証明します。
私たちの調査結果は、バニラポリシー勾配の最近の指数関数的な下限の例と対照的です。
要約(オリジナル)
In this work, we study $\gamma$-discounted infinite-horizon tabular Markov decision processes (MDPs) and introduce a framework called dynamic policy gradient (DynPG). The framework directly integrates dynamic programming with (any) policy gradient method, explicitly leveraging the Markovian property of the environment. DynPG dynamically adjusts the problem horizon during training, decomposing the original infinite-horizon MDP into a sequence of contextual bandit problems. By iteratively solving these contextual bandits, DynPG converges to the stationary optimal policy of the infinite-horizon MDP. To demonstrate the power of DynPG, we establish its non-asymptotic global convergence rate under the tabular softmax parametrization, focusing on the dependencies on salient but essential parameters of the MDP. By combining classical arguments from dynamic programming with more recent convergence arguments of policy gradient schemes, we prove that softmax DynPG scales polynomially in the effective horizon $(1-\gamma)^{-1}$. Our findings contrast recent exponential lower bound examples for vanilla policy gradient.
arxiv情報
著者 | Sara Klein,Xiangyuan Zhang,Tamer Başar,Simon Weissmann,Leif Döring |
発行日 | 2024-11-07 17:51:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google