Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs

要約

私たちは、制約付き動的システムで広く遭遇する、連続状態およびアクション空間を持つ制約付きマルコフ決定プロセス (MDP) に対する決定論的最適ポリシーを計算する問題を研究します。
連続状態およびアクション空間における決定論的ポリシー勾配手法の設計は、数え切れないほどの状態とアクションのペアの欠如と決定論的ポリシーの採用により、制約のある MDP に対する既存のポリシー勾配手法の適用を妨げるため、特に困難です。
この目的を達成するために、非漸近収束を伴う最適な決定論的ポリシーを見つけるための決定論的ポリシー勾配主双対法を開発します。
具体的には、制約付き MDP のラグランジュ関数の正則化を利用して、二次正則化勾配上昇ステップを介して決定論的ポリシーを更新し、二次正則化勾配を介して双対変数を更新する決定論的ポリシー勾配主双対 (D-PGPD) アルゴリズムを提案します。
降下ステップ。
D-PGPD の主双対反復が線形未満の速度で最適な正則化主双対ペアに収束することを証明します。
関数近似を使用して D-PGPD をインスタンス化し、D-PGPD の主双対反復が関数近似誤差に至るまで、最適な正則化主双対ペアに線形未満の速度で収束することを証明します。
さらに、ロボットのナビゲーションと流体制御という 2 つの連続制御問題におけるこの方法の有効性を実証します。
私たちの知る限り、これは連続空間制約のある MDP に対する決定論的なポリシー検索方法を提案した最初の研究であるようです。

要約(オリジナル)

We study the problem of computing deterministic optimal policies for constrained Markov decision processes (MDPs) with continuous state and action spaces, which are widely encountered in constrained dynamical systems. Designing deterministic policy gradient methods in continuous state and action spaces is particularly challenging due to the lack of enumerable state-action pairs and the adoption of deterministic policies, hindering the application of existing policy gradient methods for constrained MDPs. To this end, we develop a deterministic policy gradient primal-dual method to find an optimal deterministic policy with non-asymptotic convergence. Specifically, we leverage regularization of the Lagrangian of the constrained MDP to propose a deterministic policy gradient primal-dual (D-PGPD) algorithm that updates the deterministic policy via a quadratic-regularized gradient ascent step and the dual variable via a quadratic-regularized gradient descent step. We prove that the primal-dual iterates of D-PGPD converge at a sub-linear rate to an optimal regularized primal-dual pair. We instantiate D-PGPD with function approximation and prove that the primal-dual iterates of D-PGPD converge at a sub-linear rate to an optimal regularized primal-dual pair, up to a function approximation error. Furthermore, we demonstrate the effectiveness of our method in two continuous control problems: robot navigation and fluid control. To the best of our knowledge, this appears to be the first work that proposes a deterministic policy search method for continuous-space constrained MDPs.

arxiv情報

著者 Sergio Rozada,Dongsheng Ding,Antonio G. Marques,Alejandro Ribeiro
発行日 2024-08-19 14:11:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.OC パーマリンク