要約
連続時間強化学習設定内で平均場制御問題を解決するための、新しいポリシー勾配およびアクタークリティカル アルゴリズムを開発します。
私たちのアプローチは、パラメータ化されたランダム化ポリシーを採用し、価値関数の勾配ベースの表現を活用します。
アクター (ポリシー) と批評家 (価値関数) の両方の学習は、確率尺度のワッサーシュタイン空間上のモーメント ニューラル ネットワーク関数のクラスによって促進されます。また、重要な機能は、分布の軌跡を直接サンプリングすることです。
この研究で取り組む中心的な課題は、平均場フレームワークに特有の演算子の計算処理に関係します。
私たちの方法の有効性を説明するために、包括的な一連の数値結果を提供します。
これらには、多次元設定や制御された変動性を伴う非線形二次平均場制御問題など、さまざまな例が含まれます。
要約(オリジナル)
We develop a new policy gradient and actor-critic algorithm for solving mean-field control problems within a continuous time reinforcement learning setting. Our approach leverages a gradient-based representation of the value function, employing parametrized randomized policies. The learning for both the actor (policy) and critic (value function) is facilitated by a class of moment neural network functions on the Wasserstein space of probability measures, and the key feature is to sample directly trajectories of distributions. A central challenge addressed in this study pertains to the computational treatment of an operator specific to the mean-field framework. To illustrate the effectiveness of our methods, we provide a comprehensive set of numerical results. These encompass diverse examples, including multi-dimensional settings and nonlinear quadratic mean-field control problems with controlled volatility.
arxiv情報
著者 | Huyên Pham,Xavier Warin |
発行日 | 2023-09-08 13:29:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google