要約
継続的なアクション空間での補強学習のためのアクタークリティックアルゴリズムであるWasserstein Policy Optimization(WPO)を紹介します。
WPOは、有限系統パラメーター空間(たとえば、ニューラルネットワークの重み)に投影されたすべてのポリシーの空間を介したワッサースタイン勾配の流れの近似として導き出され、シンプルで完全に一般的なクローズドフォームアップデートにつながります。
結果のアルゴリズムは、決定論的および古典的なポリシー勾配法の多くの特性を組み合わせています。
決定論的なポリシーグラデーションと同様に、アクションに関するアクション値関数の勾配に関する知識を活用します。
古典的なポリシーグラデーションと同様に、修復のトリックを使用せずに、アクションよりもarbitrary意的な分布を備えた確率的ポリシーに適用できます。
Deepmind Control Suiteの結果と、最先端の連続制御方法と比較して有利な磁気閉じ込め融合タスクを示します。
要約(オリジナル)
We introduce Wasserstein Policy Optimization (WPO), an actor-critic algorithm for reinforcement learning in continuous action spaces. WPO can be derived as an approximation to Wasserstein gradient flow over the space of all policies projected into a finite-dimensional parameter space (e.g., the weights of a neural network), leading to a simple and completely general closed-form update. The resulting algorithm combines many properties of deterministic and classic policy gradient methods. Like deterministic policy gradients, it exploits knowledge of the gradient of the action-value function with respect to the action. Like classic policy gradients, it can be applied to stochastic policies with arbitrary distributions over actions — without using the reparameterization trick. We show results on the DeepMind Control Suite and a magnetic confinement fusion task which compare favorably with state-of-the-art continuous control methods.
arxiv情報
著者 | David Pfau,Ian Davies,Diana Borsa,Joao G. M. Araujo,Brendan Tracey,Hado van Hasselt |
発行日 | 2025-05-01 17:07:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google