Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL

要約

ナッシュ均衡政策を見つけるために戦略的な探索が必要な、モデルベースの関数近似を使用した平均場ゲーム (MFG) における強化学習 (RL) のサンプルの複雑さを研究します。
モデル クラスの複雑さを特徴付けるためのより効果的な概念である部分モデルベースのエルダー ディメンション (P-MBED) を導入します。
特に、P-MBED は、指定された平均場モデル クラスから変換されたシングル エージェント モデル クラスの複雑さを測定し、\citet{huang2023statistical} によって提案された MBED よりも指数関数的に低くなる可能性があります。
私たちは、新しい探索戦略を特徴とするモデル消去アルゴリズムを提供し、P-MBED に対するサンプル複雑さの結果多項式を確立します。
重要なことに、私たちの結果は、基本的な実現可能性とリプシッツ連続性の仮定の下では、\emph{MFG でナッシュ均衡を学習することは、単一エージェントの RL 問題の対数を解くことと同じくらい統計的に難しいものではない}ことを明らかにしています。
我々は、従来の MFG から一般化し、複数のタイプのエージェントを関与させて、結果をマルチタイプ MFG にさらに拡張します。
この拡張は、平均場近似の有効性を通じて、より広範なクラスのマルコフ ゲームの統計的扱いやすさを意味します。
最後に、理論的アルゴリズムに触発されて、計算効率が向上したヒューリスティックなアプローチを提示し、その有効性を経験的に実証します。

要約(オリジナル)

We study the sample complexity of reinforcement learning (RL) in Mean-Field Games (MFGs) with model-based function approximation that requires strategic exploration to find a Nash Equilibrium policy. We introduce the Partial Model-Based Eluder Dimension (P-MBED), a more effective notion to characterize the model class complexity. Notably, P-MBED measures the complexity of the single-agent model class converted from the given mean-field model class, and potentially, can be exponentially lower than the MBED proposed by \citet{huang2023statistical}. We contribute a model elimination algorithm featuring a novel exploration strategy and establish sample complexity results polynomial w.r.t.~P-MBED. Crucially, our results reveal that, under the basic realizability and Lipschitz continuity assumptions, \emph{learning Nash Equilibrium in MFGs is no more statistically challenging than solving a logarithmic number of single-agent RL problems}. We further extend our results to Multi-Type MFGs, generalizing from conventional MFGs and involving multiple types of agents. This extension implies statistical tractability of a broader class of Markov Games through the efficacy of mean-field approximation. Finally, inspired by our theoretical algorithm, we present a heuristic approach with improved computational efficiency and empirically demonstrate its effectiveness.

arxiv情報

著者 Jiawei Huang,Niao He,Andreas Krause
発行日 2024-02-08 14:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, stat.ML パーマリンク