Open Ad Hoc Teamwork with Cooperative Game Theory

要約

アドホックなチームワークは困難な問題を引き起こし、事前の調整や共同トレーニングなしでチームメイトと協力するエージェントの設計が必要になります。
オープンなアドホック チームワークは、オープン チームと呼ばれる、チームメイトの数が変化する環境を考慮することで、この課題をさらに複雑にします。
この問題に対する有望な解決策の 1 つは、グラフ ニューラル ネットワークの汎用性を活用して、無制限の数のエージェントを処理し、グラフベースのポリシー学習 (GPL) と呼ばれるオープン チームに効果的に対処することです。
ただし、調整グラフ上の共同 Q 値表現には説得力のある説明が不足しています。
この論文では、協力ゲーム理論の観点から共同 Q 値表現を理解するための新しい理論を確立し、オープン チーム設定でその学習パラダイムを検証します。
私たちの理論に基づいて、学習を容易にする追加の証明可能な実装トリックを備えた、GPL フレームワークと互換性のある CIAO という名前の新しいアルゴリズムを提案します。
実験のデモは https://sites.google.com/view/ciao2024 で入手でき、実験のコードは https://github.com/hsvgbkhgbv/CIAO で公開されています。

要約(オリジナル)

Ad hoc teamwork poses a challenging problem, requiring the design of an agent to collaborate with teammates without prior coordination or joint training. Open ad hoc teamwork further complicates this challenge by considering environments with a changing number of teammates, referred to as open teams. One promising solution to this problem is leveraging the generalizability of graph neural networks to handle an unrestricted number of agents and effectively address open teams, named graph-based policy learning (GPL). However, its joint Q-value representation over a coordination graph lacks convincing explanations. In this paper, we establish a new theory to understand the joint Q-value representation from the perspective of cooperative game theory, and validate its learning paradigm in open team settings. Building on our theory, we propose a novel algorithm named CIAO compatible with GPL framework, with additional provable implementation tricks that can facilitate learning. The demo of experiments is available on https://sites.google.com/view/ciao2024, and the code of experiments is published on https://github.com/hsvgbkhgbv/CIAO.

arxiv情報

著者 Jianhong Wang,Yang Li,Yuan Zhang,Wei Pan,Samuel Kaski
発行日 2024-05-27 16:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク