要約
継続的な時間における確率的最適制御問題のポリシー勾配方法を検討します。
特に、ポリシー勾配法の連続時間制限と見なされるコントロールの勾配フローを分析します。
勾配の流れのグローバルな収束を証明し、いくつかの規則性の仮定の下で収束率を確立します。
分析の主な斬新さは、局所的な最適制御関数の概念であり、極端な局所的な最適性を特徴付けるために導入されています。
要約(オリジナル)
We consider policy gradient methods for stochastic optimal control problem in continuous time. In particular, we analyze the gradient flow for the control, viewed as a continuous time limit of the policy gradient method. We prove the global convergence of the gradient flow and establish a convergence rate under some regularity assumptions. The main novelty in the analysis is the notion of local optimal control function, which is introduced to characterize the local optimality of the iterate.
arxiv情報
著者 | Mo Zhou,Jianfeng Lu |
発行日 | 2025-04-14 17:34:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google