Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs

要約

本研究では、制約付き力学系で広く遭遇する、連続的な状態・行動空間を持つ制約付きマルコフ決定過程(MDP)に対する決定論的最適政策の計算問題を研究する。連続状態・行動空間における決定論的な政策勾配法の設計は、列挙可能な状態-行動ペアの欠如と決定論的政策の採用のために特に困難であり、既存の政策勾配法の適用を妨げている。このため我々は、非漸近収束で最適な決定論的政策を求める決定論的政策勾配原始双対法を開発する。具体的には、制約付きMDPのラグランジアンの正則化を利用し、二次正則化勾配上昇ステップにより決定論的政策を更新し、二次正則化勾配降下ステップにより双対変数を更新する決定論的政策勾配原始双対(D-PGPD)アルゴリズムを提案する。D-GPDのプライマル・デュアルの反復が最適な正則化されたプライマル・デュアルの組に準線形速度で収束することを証明する。D-PGPDを関数近似でインスタンス化し、D-PGPDのプライマル・デュアルの反復が、関数近似誤差の範囲内で、最適な正則化されたプライマル・デュアルの組に準線形収束することを証明する。さらに、ロボットナビゲーションと流体制御という2つの連続制御問題において、本手法の有効性を実証する。これは、連続空間制約付きMDPに対する決定論的な政策探索法を提案した最初の研究であると思われる。

要約(オリジナル)

We study the problem of computing deterministic optimal policies for constrained Markov decision processes (MDPs) with continuous state and action spaces, which are widely encountered in constrained dynamical systems. Designing deterministic policy gradient methods in continuous state and action spaces is particularly challenging due to the lack of enumerable state-action pairs and the adoption of deterministic policies, hindering the application of existing policy gradient methods. To this end, we develop a deterministic policy gradient primal-dual method to find an optimal deterministic policy with non-asymptotic convergence. Specifically, we leverage regularization of the Lagrangian of the constrained MDP to propose a deterministic policy gradient primal-dual (D-PGPD) algorithm that updates the deterministic policy via a quadratic-regularized gradient ascent step and the dual variable via a quadratic-regularized gradient descent step. We prove that the primal-dual iterates of D-PGPD converge at a sub-linear rate to an optimal regularized primal-dual pair. We instantiate D-PGPD with function approximation and prove that the primal-dual iterates of D-PGPD converge at a sub-linear rate to an optimal regularized primal-dual pair, up to a function approximation error. Furthermore, we demonstrate the effectiveness of our method in two continuous control problems: robot navigation and fluid control. This appears to be the first work that proposes a deterministic policy search method for continuous-space constrained MDPs.

arxiv情報

著者 Sergio Rozada,Dongsheng Ding,Antonio G. Marques,Alejandro Ribeiro
発行日 2025-04-04 11:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, math.OC パーマリンク