Actor critic learning algorithms for mean-field control with moment neural networks


連続時間強化学習設定内で平均場制御問題を解決するための、新しいポリシー勾配およびアクタークリティカル アルゴリズムを開発します。
アクター (ポリシー) と批評家 (価値関数) の両方の学習は、確率尺度のワッサーシュタイン空間上のモーメント ニューラル ネットワーク関数のクラスによって促進されます。また、重要な機能は、分布の軌跡を直接サンプリングすることです。


We develop a new policy gradient and actor-critic algorithm for solving mean-field control problems within a continuous time reinforcement learning setting. Our approach leverages a gradient-based representation of the value function, employing parametrized randomized policies. The learning for both the actor (policy) and critic (value function) is facilitated by a class of moment neural network functions on the Wasserstein space of probability measures, and the key feature is to sample directly trajectories of distributions. A central challenge addressed in this study pertains to the computational treatment of an operator specific to the mean-field framework. To illustrate the effectiveness of our methods, we provide a comprehensive set of numerical results. These encompass diverse examples, including multi-dimensional settings and nonlinear quadratic mean-field control problems with controlled volatility.


著者 Huyên Pham,Xavier Warin
発行日 2023-09-08 13:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: 68T07, cs.LG, math.OC, stat.ML パーマリンク