Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL

要約

本研究では、モデルベースの関数近似を用いた平均場ゲーム(MFG)における強化学習(RL)のサンプル複雑度を研究する。我々は、モデルクラスの複雑性を特徴付けるより効果的な概念である部分モデルベースエルダー次元(P-MBED)を導入する。P-MBEDは、与えられた平均場モデルクラスから変換されたシングルエージェントモデルクラスの複雑さを測定するものであり、潜在的には、˶{huang2023statistical}によって提案されたMBEDよりも指数関数的に低くなる可能性がある。我々は、新しい探索戦略を特徴とするモデル消去アルゴリズムに貢献し、~P-MBEDに対して多項式なサンプル複雑度の結果を確立する。重要なことに、我々の結果は、基本的な実現可能性とリプシッツ連続性の仮定の下で、 \emph{MFGにおけるナッシュ均衡の学習は、対数数の単一エージェントRL問題を解くことより統計的に困難ではない}ことを明らかにする。我々はさらに、従来のMFGを一般化し、複数のタイプのエージェントを含むMulti-Type MFGへと結果を拡張する。この拡張は、平均場近似の有効性により、より広範なクラスのマルコフゲームの統計的扱いやすさを示唆している。最後に、我々の理論的アルゴリズムに触発され、計算効率を改善した発見的アプローチを提示し、その有効性を実証的に示す。

要約(オリジナル)

We study the sample complexity of reinforcement learning (RL) in Mean-Field Games (MFGs) with model-based function approximation that requires strategic exploration to find a Nash Equilibrium policy. We introduce the Partial Model-Based Eluder Dimension (P-MBED), a more effective notion to characterize the model class complexity. Notably, P-MBED measures the complexity of the single-agent model class converted from the given mean-field model class, and potentially, can be exponentially lower than the MBED proposed by \citet{huang2023statistical}. We contribute a model elimination algorithm featuring a novel exploration strategy and establish sample complexity results polynomial w.r.t.~P-MBED. Crucially, our results reveal that, under the basic realizability and Lipschitz continuity assumptions, \emph{learning Nash Equilibrium in MFGs is no more statistically challenging than solving a logarithmic number of single-agent RL problems}. We further extend our results to Multi-Type MFGs, generalizing from conventional MFGs and involving multiple types of agents. This extension implies statistical tractability of a broader class of Markov Games through the efficacy of mean-field approximation. Finally, inspired by our theoretical algorithm, we present a heuristic approach with improved computational efficiency and empirically demonstrate its effectiveness.

arxiv情報

著者 Jiawei Huang,Niao He,Andreas Krause
発行日 2024-06-03 15:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.GT, cs.LG, stat.ML パーマリンク