要約
最近の研究では、通信ネットワークを介して接続されている分散エージェントが、経験的システムの単一の非エピソード実行から平均場ゲームの均衡を学習できるアルゴリズムが提供されています。
ただし、これらのアルゴリズムは表形式の設定に対して提供されています。これは、プレイヤーの観察空間のサイズを計算的に制限します。つまり、アルゴリズムは小さな状態空間以外は処理できず、エゴ プレイヤーの状態に応じてポリシーを超えて一般化することもできません。
いわゆる「人口依存型」政策。
我々は、これまで有限地平線、エピソード的、集中化された設定でのみ採用されていたミュンヒハウゼンオンラインミラー降下法を活用し、既存の設定に関数近似を導入することでこの制限に対処します。
これにより、各プレーヤーのポリシーの観察に母集団の平均場分布を含めることができますが、分散エージェントがこのグローバルな情報にアクセスできると仮定するのはおそらく非現実的です。そのため、エージェントがグローバルな情報を推定できるようにする新しいアルゴリズムを追加で提供します。
ローカルの近隣地域に基づいた経験的な分布を計算し、特定のネットワークを介した通信を介してこの推定値を改善します。
私たちの実験は、通信ネットワークによって分散型エージェントが人口依存政策の平均場分布を推定できること、および政策情報の交換により、ネットワーク化されたエージェントが関数近似設定において独立型エージェントや集中型エージェントの両方をさらに上回るパフォーマンスを発揮できることを示しています。
表形式の設定よりも。
要約(オリジナル)
Recent works have provided algorithms by which decentralised agents, which may be connected via a communication network, can learn equilibria in Mean-Field Games from a single, non-episodic run of the empirical system. However, these algorithms are given for tabular settings: this computationally limits the size of players’ observation space, meaning that the algorithms are not able to handle anything but small state spaces, nor to generalise beyond policies depending on the ego player’s state to so-called ‘population-dependent’ policies. We address this limitation by introducing function approximation to the existing setting, drawing on the Munchausen Online Mirror Descent method that has previously been employed only in finite-horizon, episodic, centralised settings. While this permits us to include the population’s mean-field distribution in the observation for each player’s policy, it is arguably unrealistic to assume that decentralised agents would have access to this global information: we therefore additionally provide new algorithms that allow agents to estimate the global empirical distribution based on a local neighbourhood, and to improve this estimate via communication over a given network. Our experiments showcase how the communication network allows decentralised agents to estimate the mean-field distribution for population-dependent policies, and that exchanging policy information helps networked agents to outperform both independent and even centralised agents in function-approximation settings, by an even greater margin than in tabular settings.
arxiv情報
著者 | Patrick Benjamin,Alessandro Abate |
発行日 | 2024-08-21 13:32:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google