A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces

要約

我々は、ポーランドの状態と行動空間を用いた無限地平線エントロピー正則化マルコフ決定プロセスに対するフィッシャー・ラオ政策勾配フローのグローバル収束を研究します。
このフローは、ポリシー ミラー降下方式の連続時間の類似物です。
我々は、勾配流の全体的な適切な姿勢を確立し、最適なポリシーへのその指数関数的な収束を実証します。
さらに、勾配評価に関してフローが安定していることを証明し、対数線形ポリシーのパラメーター化による自然なポリシー勾配フローのパフォーマンスに関する洞察を提供します。
目的関数の凸性の欠如とエントロピー正則化から生じる不連続性に起因する課題を克服するために、性能差の補題と勾配降下フローとミラー降下フロー間の双対関係を活用します。

要約(オリジナル)

We study the global convergence of a Fisher-Rao policy gradient flow for infinite-horizon entropy-regularised Markov decision processes with Polish state and action space. The flow is a continuous-time analogue of a policy mirror descent method. We establish the global well-posedness of the gradient flow and demonstrate its exponential convergence to the optimal policy. Moreover, we prove the flow is stable with respect to gradient evaluation, offering insights into the performance of a natural policy gradient flow with log-linear policy parameterisation. To overcome challenges stemming from the lack of the convexity of the objective function and the discontinuity arising from the entropy regulariser, we leverage the performance difference lemma and the duality relationship between the gradient and mirror descent flows.

arxiv情報

著者 Bekzhan Kerimkulov,James-Michael Leahy,David Siska,Lukasz Szpruch,Yufei Zhang
発行日 2023-10-04 16:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60B05, 90C26, 90C40, 90C53, 93E20, cs.LG, math.OC, math.PR パーマリンク