要約
エントロピー正則化は、最適化ランドスケープを正則化し、収束を加速するために、ポリシー最適化アルゴリズムで広く使用されてきました。
ただし、追加の正則化バイアスが導入されるという代償が伴います。
この研究では、確率的出口時間制御問題に対するポリシー勾配法の収束に対するエントロピー正則化の影響を定量化しています。
連続時間ポリシーのミラー降下ダイナミクスを分析します。これは、エントロピー正則化値関数の勾配に基づいてポリシーを更新し、アルゴリズムの進行に応じてエントロピー正則化の強度を調整します。
エントロピー レベルが固定されている場合、ダイナミクスは正則化された問題の最適解に指数関数的に収束することを証明します。
さらに、エントロピー レベルが適切な多項式レートで減衰すると、アニールされた流れは、離散作用空間に対して $\mathcal O(1/S)$ のレートで非正則化問題の解に収束し、適切な条件下では
一般的なアクション空間のレートは $\mathcal O(1/\sqrt{S})$ で、$S$ は勾配流動時間です。
このペーパーでは、収束率の観点から、エントロピー正則化によって、真の勾配がある場合でもポリシーの最適化がどのように改善されるかについて説明します。
要約(オリジナル)
Entropy regularization has been extensively used in policy optimization algorithms to regularize the optimization landscape and accelerate convergence; however, it comes at the cost of introducing an additional regularization bias. This work quantifies the impact of entropy regularization on the convergence of policy gradient methods for stochastic exit time control problems. We analyze a continuous-time policy mirror descent dynamics, which updates the policy based on the gradient of an entropy-regularized value function and adjusts the strength of entropy regularization as the algorithm progresses. We prove that with a fixed entropy level, the dynamics converges exponentially to the optimal solution of the regularized problem. We further show that when the entropy level decays at suitable polynomial rates, the annealed flow converges to the solution of the unregularized problem at a rate of $\mathcal O(1/S)$ for discrete action spaces and, under suitable conditions, at a rate of $\mathcal O(1/\sqrt{S})$ for general action spaces, with $S$ being the gradient flow time. This paper explains how entropy regularization improves policy optimization, even with the true gradient, from the perspective of convergence rate.
arxiv情報
著者 | Deven Sethi,David Šiška,Yufei Zhang |
発行日 | 2024-05-30 17:02:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google