要約
我々は、ポーランドの状態および行動空間を用いた無限地平線エントロピー正則化マルコフ決定プロセスに対するフィッシャー・ラオ政策勾配フローのグローバル収束を研究します。
このフローは、ポリシー ミラー降下方式の連続時間の類似物です。
我々は、勾配流の全体的な適切な姿勢を確立し、最適なポリシーへのその指数関数的な収束を実証します。
さらに、勾配評価に関してフローが安定していることを証明し、対数線形ポリシーのパラメーター化による自然なポリシー勾配フローのパフォーマンスに関する洞察を提供します。
目的関数の凸性の欠如とエントロピー正則化から生じる不連続性に起因する課題を克服するために、性能差の補題と勾配降下フローとミラー降下フロー間の双対関係を活用します。
私たちの分析は、さまざまな離散ポリシー勾配アルゴリズムを開発するための理論的基盤を提供します。
要約(オリジナル)
We study the global convergence of a Fisher-Rao policy gradient flow for infinite-horizon entropy-regularised Markov decision processes with Polish state and action space. The flow is a continuous-time analogue of a policy mirror descent method. We establish the global well-posedness of the gradient flow and demonstrate its exponential convergence to the optimal policy. Moreover, we prove the flow is stable with respect to gradient evaluation, offering insights into the performance of a natural policy gradient flow with log-linear policy parameterisation. To overcome challenges stemming from the lack of the convexity of the objective function and the discontinuity arising from the entropy regulariser, we leverage the performance difference lemma and the duality relationship between the gradient and mirror descent flows. Our analysis provides a theoretical foundation for developing various discrete policy gradient algorithms.
arxiv情報
著者 | Bekzhan Kerimkulov,James-Michael Leahy,David Siska,Lukasz Szpruch,Yufei Zhang |
発行日 | 2024-12-05 16:35:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google