要約
関数アクセラレーションを、強化学習 (RL) の新規かつ基本的な手法を広範囲にカバーする、ポリシー ミラー降下 (PMD) 一般的なアルゴリズム ファミリに適用します。
二重性を活用して、運動量ベースの PMD アップデートを提案します。
機能的なルートを取ることで、私たちのアプローチはポリシーのパラメータ化から独立しており、特殊なケースとしてポリシー パラメータのレベルでのモメンタムの以前の適用をカバーする大規模な最適化に適用できます。
我々は、このアプローチのいくつかの特性を理論的に分析し、数値アブレーション研究で補完します。これは、この空間におけるさまざまなアルゴリズム設計の選択と比較して、値ポリトープ上のポリシー最適化ダイナミクスを説明するのに役立ちます。
さらに、関数の加速に関連する問題設定のいくつかの特徴を数値的に特徴付け、最後に、学習メカニズムに対する近似の影響を調査します。
要約(オリジナル)
We apply functional acceleration to the Policy Mirror Descent (PMD) general family of algorithms, which cover a wide range of novel and fundamental methods in Reinforcement Learning (RL). Leveraging duality, we propose a momentum-based PMD update. By taking the functional route, our approach is independent of the policy parametrization and applicable to large-scale optimization, covering previous applications of momentum at the level of policy parameters as a special case. We theoretically analyze several properties of this approach and complement with a numerical ablation study, which serves to illustrate the policy optimization dynamics on the value polytope, relative to different algorithmic design choices in this space. We further characterize numerically several features of the problem setting relevant for functional acceleration, and lastly, we investigate the impact of approximation on their learning mechanics.
arxiv情報
著者 | Veronica Chelu,Doina Precup |
発行日 | 2024-07-23 16:04:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google