要約
エントロピー正則化マルコフ決定プロセスは、強化学習で広く使用されています。
この論文は、エントロピー正則化問題の主双対定式化に関するものです。
標準的な一次法では、厳密な凸性と凹性が欠如しているため、収束が遅くなります。
この問題に対処するために、最初に新しい二次凸主双対定式化を導入します。
新しい定式化の自然勾配上昇下降は、グローバルな収束保証と指数関数的な収束率を実現します。
また、収束をさらに大幅に加速する新しい補間メトリックも提案します。
複数の設定下で提案された方法のパフォーマンスを実証するために、数値結果が提供されます。
要約(オリジナル)
Entropy regularized Markov decision processes have been widely used in reinforcement learning. This paper is concerned with the primal-dual formulation of the entropy regularized problems. Standard first-order methods suffer from slow convergence due to the lack of strict convexity and concavity. To address this issue, we first introduce a new quadratically convexified primal-dual formulation. The natural gradient ascent descent of the new formulation enjoys global convergence guarantee and exponential convergence rate. We also propose a new interpolating metric that further accelerates the convergence significantly. Numerical results are provided to demonstrate the performance of the proposed methods under multiple settings.
arxiv情報
著者 | Haoya Li,Hsiang-fu Yu,Lexing Ying,Inderjit Dhillon |
発行日 | 2023-06-12 16:56:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google