要約
私たちは、平均場ゲーム (MFG) のコンテキストで模倣学習 (IL) の問題を調査します。このゲームの目標は、未知の利得関数に従ってナッシュ均衡政策に従ったエージェント集団の行動を模倣することです。
MFG の IL は、特に報酬関数と移行カーネルの両方が人口分布に依存する場合、シングルエージェント IL と比較して新たな課題をもたらします。
この論文では、MFG 向け IL に関する既存の文献から離れて、ナッシュ模倣ギャップと呼ばれる新しい解決策の概念を紹介します。
次に、報酬のみが人口分布に依存する場合、MFG の IL を同様の保証で単一エージェント IL に削減できることを示します。
ただし、ダイナミクスが人口に依存している場合、この設定では IL がより困難であることを示唆する新しい上限を提供します。
この問題に対処するために、強化学習問題を平均場制御 (MFC) 問題に置き換える新しい敵対的定式化を提案します。これは、MFG 内の IL の進歩が MFC に基づいて構築される必要がある可能性があることを示唆しています。
要約(オリジナル)
We explore the problem of imitation learning (IL) in the context of mean-field games (MFGs), where the goal is to imitate the behavior of a population of agents following a Nash equilibrium policy according to some unknown payoff function. IL in MFGs presents new challenges compared to single-agent IL, particularly when both the reward function and the transition kernel depend on the population distribution. In this paper, departing from the existing literature on IL for MFGs, we introduce a new solution concept called the Nash imitation gap. Then we show that when only the reward depends on the population distribution, IL in MFGs can be reduced to single-agent IL with similar guarantees. However, when the dynamics is population-dependent, we provide a novel upper-bound that suggests IL is harder in this setting. To address this issue, we propose a new adversarial formulation where the reinforcement learning problem is replaced by a mean-field control (MFC) problem, suggesting progress in IL within MFGs may have to build upon MFC.
arxiv情報
著者 | Giorgia Ramponi,Pavel Kolev,Olivier Pietquin,Niao He,Mathieu Laurière,Matthieu Geist |
発行日 | 2023-06-26 15:58:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google