要約
ポリシー勾配法は強化学習で広く使用されています。
しかし、政策最適化の非凸性は、政策勾配手法のグローバルな収束を理解する上で重大な課題を課しています。
一般的な状態空間とアクション空間を備えた有限水平マルコフ意思決定プロセス (MDP) のクラスに対して、ポリシー最適化のクルディカ・ロジャシェヴィチ (KL) 条件を保証するための、簡単に検証可能な一連の仮定を提供するフレームワークを開発します。
KL 条件を活用することで、政策勾配法は、非凸性にもかかわらず非無症状率で全体的に最適な政策に収束します。
私たちの結果は、エントロピー正則化表形式 MDP、線形 2 次レギュレーター (LQR) 問題、確率的在庫モデル、確率的現金残高問題など、さまざまな制御および運用モデルに応用できることがわかり、これらに対して $\epsilon$ 最適なポリシーが実現できることを示しています。
$\tilde{\mathcal{O}}(\epsilon^{-1})$ のサンプル サイズと確率的政策勾配法による計画期間に関する多項式を使用して取得されます。
私たちの結果は、マルコフ変調需要と確率的現金収支問題を伴う多期間在庫システムのサンプルの複雑さを文献で初めて確立しました。
要約(オリジナル)
Policy gradient methods are widely used in reinforcement learning. Yet, the nonconvexity of policy optimization imposes significant challenges in understanding the global convergence of policy gradient methods. For a class of finite-horizon Markov Decision Processes (MDPs) with general state and action spaces, we develop a framework that provides a set of easily verifiable assumptions to ensure the Kurdyka-Lojasiewicz (KL) condition of the policy optimization. Leveraging the KL condition, policy gradient methods converge to the globally optimal policy with a non-asymptomatic rate despite nonconvexity. Our results find applications in various control and operations models, including entropy-regularized tabular MDPs, Linear Quadratic Regulator (LQR) problems, stochastic inventory models, and stochastic cash balance problems, for which we show an $\epsilon$-optimal policy can be obtained using a sample size in $\tilde{\mathcal{O}}(\epsilon^{-1})$ and polynomial in terms of the planning horizon by stochastic policy gradient methods. Our result establishes the first sample complexity for multi-period inventory systems with Markov-modulated demands and stochastic cash balance problems in the literature.
arxiv情報
著者 | Xin Chen,Yifan Hu,Minda Zhao |
発行日 | 2024-09-25 17:56:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google