要約
ネットワーク通信を平均場ゲーム フレームワーク、特に $N$ 分散エージェントが経験的システムの単一の非エピソード進化パスに沿って学習するオラクルフリー設定に導入します。
ネットワーク構造についていくつかの合理的な仮定を置くだけで、私たちのアーキテクチャは、集中学習の場合と独立学習の場合のサンプル保証の間に制限があることを証明します。
3 つの理論的アルゴリズムのサンプル保証が実際にどのように実際の収束をもたらさないのかについて説明します。
したがって、理論的なパラメーターが観察されない(Q 関数の推定が不十分になる)実際の設定では、私たちの通信スキームは、集中コントローラーの望ましくない仮定に依存することなく、独立したケースの収束を大幅に加速することを示します。
私たちは、3 つの理論的アルゴリズムすべてにいくつかの実用的な機能強化を提供し、最初の実証的なデモンストレーションを紹介できるようにしました。
私たちの実験では、アルゴリズムの重要な理論的前提のいくつかを取り除くことができ、新しいネットワーク通信によってもたらされる経験的な収束の利点を示すことができることを確認しました。
さらに、ネットワーク化されたアプローチには、予期せぬ学習の失敗や母集団サイズの変化に対する堅牢性の点で、集中型および独立した代替手段の両方に比べて大きな利点があることを示します。
要約(オリジナル)
We introduce networked communication to the mean-field game framework, in particular to oracle-free settings where $N$ decentralised agents learn along a single, non-episodic evolution path of the empirical system. We prove that our architecture, with only a few reasonable assumptions about network structure, has sample guarantees bounded between those of the centralised- and independent-learning cases. We discuss how the sample guarantees of the three theoretical algorithms do not actually result in practical convergence. Accordingly, we show that in practical settings where the theoretical parameters are not observed (leading to poor estimation of the Q-function), our communication scheme significantly accelerates convergence over the independent case, without relying on the undesirable assumption of a centralised controller. We contribute several further practical enhancements to all three theoretical algorithms, allowing us to showcase their first empirical demonstrations. Our experiments confirm that we can remove several of the key theoretical assumptions of the algorithms, and display the empirical convergence benefits brought by our new networked communication. We additionally show that the networked approach has significant advantages, over both the centralised and independent alternatives, in terms of robustness to unexpected learning failures and to changes in population size.
arxiv情報
著者 | Patrick Benjamin,Alessandro Abate |
発行日 | 2024-01-26 14:24:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google