Accelerating Primal-dual Methods for Regularized Markov Decision Processes

要約

エントロピー正則化マルコフ決定プロセスは、強化学習で広く使用されています。
この論文は、エントロピー正則化問題の主双対定式化に関するものです。
標準的な一次法では、厳密な凸性と凹性が欠如しているため、収束が遅くなります。
この問題に対処するために、最初に新しい二次凸主双対定式化を導入します。
新しい定式化の自然勾配上昇下降は、グローバルな収束保証と指数関数的な収束率を実現します。
また、収束をさらに大幅に加速する新しい補間メトリックも提案します。
複数の設定下で提案された方法のパフォーマンスを実証するために、数値結果が提供されます。

要約(オリジナル)

Entropy regularized Markov decision processes have been widely used in reinforcement learning. This paper is concerned with the primal-dual formulation of the entropy regularized problems. Standard first-order methods suffer from slow convergence due to the lack of strict convexity and concavity. To address this issue, we first introduce a new quadratically convexified primal-dual formulation. The natural gradient ascent descent of the new formulation enjoys global convergence guarantee and exponential convergence rate. We also propose a new interpolating metric that further accelerates the convergence significantly. Numerical results are provided to demonstrate the performance of the proposed methods under multiple settings.

arxiv情報

著者 Haoya Li,Hsiang-fu Yu,Lexing Ying,Inderjit Dhillon
発行日 2023-06-12 16:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク