Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation

要約

平均フィールド ゲーム (MFG) は、人口分布を使用して大規模な人口のマルチエージェント システム内の相互作用をモデル化します。
MFG の従来の学習方法は固定小数点反復 (FPI) に基づいており、最良の応答と誘導された母集団分布を個別かつ順次に計算します。
ただし、FPI タイプの方法には、前方後方手順によって生じる振動のため、非効率性と不安定性があります。
この論文では、MFG 向けのオンライン学習方法について検討します。この方法では、エージェントがポリシーと母集団の推定値を同時に完全非同期で更新し、その結果、SemiSGD と呼ばれる単純な確率的勾配降下法 (SGD) タイプの方法が得られます。
SemiSGD は数値安定性と効率性を示すだけでなく、価値関数と母集団分布を統一パラメータとして扱うことで新しい視点を提供します。
SemiSGD がこの統一パラメーターを平均場平衡への下降方向に沿って導くことを理論的に示します。
この観点に基づいて、私たちは価値関数と人口分布の両方に対する線形関数近似 (LFA) を開発し、その結果、連続状態行動空間における MFG 向けの初の人口を意識した LFA が実現しました。
有限時間収束および近似誤差解析は、母集団認識 LFA を備えた SemiSGD に提供されます。

要約(オリジナル)

Mean field games (MFGs) model the interactions within a large-population multi-agent system using the population distribution. Traditional learning methods for MFGs are based on fixed-point iteration (FPI), which calculates best responses and induced population distribution separately and sequentially. However, FPI-type methods suffer from inefficiency and instability, due to oscillations caused by the forward-backward procedure. This paper considers an online learning method for MFGs, where an agent updates its policy and population estimates simultaneously and fully asynchronously, resulting in a simple stochastic gradient descent (SGD) type method called SemiSGD. Not only does SemiSGD exhibit numerical stability and efficiency, but it also provides a novel perspective by treating the value function and population distribution as a unified parameter. We theoretically show that SemiSGD directs this unified parameter along a descent direction to the mean field equilibrium. Motivated by this perspective, we develop a linear function approximation (LFA) for both the value function and the population distribution, resulting in the first population-aware LFA for MFGs on continuous state-action space. Finite-time convergence and approximation error analysis are provided for SemiSGD equipped with population-aware LFA.

arxiv情報

著者 Chenyu Zhang,Xu Chen,Xuan Di
発行日 2024-08-15 14:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, cs.MA, math.OC パーマリンク