Mollification Effects of Policy Gradient Methods

要約

ポリシー勾配法により、基盤となるシステムに複雑で滑らかではない最適化ランドスケープを生成する高度な非線形ダイナミクスが含まれる場合でも、深層強化学習 (RL) が困難な連続制御問題にアプローチできるようになりました。
私たちは、政策勾配法が非滑らかな最適化状況をどのように緩和して効果的な政策探索を可能にするか、またそのマイナス面を理解するための厳密なフレームワークを開発します。つまり、目的関数をより滑らかで最適化しやすくする一方で、確率的目標は元の目標からさらに逸脱します。
問題。
政策勾配法と逆方向熱方程式の解法が等価であることを示します。
PDE 理論からの後方熱方程式の不適切な姿勢に続いて、確率論下での政策勾配の使用に対する根本的な課題を提示します。
さらに、この制限と調和解析の不確実性原理を関連付けて、RL における確率的ポリシーを使用した探査の効果を理解します。
また、実際の緩和効果のプラス面とマイナス面の両方を説明する実験結果も提供します。

要約(オリジナル)

Policy gradient methods have enabled deep reinforcement learning (RL) to approach challenging continuous control problems, even when the underlying systems involve highly nonlinear dynamics that generate complex non-smooth optimization landscapes. We develop a rigorous framework for understanding how policy gradient methods mollify non-smooth optimization landscapes to enable effective policy search, as well as the downside of it: while making the objective function smoother and easier to optimize, the stochastic objective deviates further from the original problem. We demonstrate the equivalence between policy gradient methods and solving backward heat equations. Following the ill-posedness of backward heat equations from PDE theory, we present a fundamental challenge to the use of policy gradient under stochasticity. Moreover, we make the connection between this limitation and the uncertainty principle in harmonic analysis to understand the effects of exploration with stochastic policies in RL. We also provide experimental results to illustrate both the positive and negative aspects of mollification effects in practice.

arxiv情報

著者 Tao Wang,Sylvia Herbert,Sicun Gao
発行日 2024-05-28 05:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク