A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee

要約

継続的な時間における確率的最適制御問題のポリシー勾配方法を検討します。
特に、ポリシー勾配法の連続時間制限と見なされるコントロールの勾配フローを分析します。
勾配の流れのグローバルな収束を証明し、いくつかの規則性の仮定の下で収束率を確立します。
分析の主な斬新さは、局所的な最適制御関数の概念であり、極端な局所的な最適性を特徴付けるために導入されています。

要約(オリジナル)

We consider policy gradient methods for stochastic optimal control problem in continuous time. In particular, we analyze the gradient flow for the control, viewed as a continuous time limit of the policy gradient method. We prove the global convergence of the gradient flow and establish a convergence rate under some regularity assumptions. The main novelty in the analysis is the notion of local optimal control function, which is introduced to characterize the local optimality of the iterate.

arxiv情報

著者 Mo Zhou,Jianfeng Lu
発行日 2025-04-14 17:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 49M05, cs.LG, cs.SY, eess.SY, math.OC パーマリンク