Open Ad Hoc Teamwork with Cooperative Game Theory

要約

アドホックなチームワークは困難な問題を引き起こし、事前の調整や共同トレーニングなしでチームメイトと協力するエージェントの設計が必要になります。
オープン アドホック チームワーク (OAHT) は、オープン チームと呼ばれる、チームメイトの数が変化する環境を考慮することで、この課題をさらに複雑にします。
この問題に対する実際の有望な解決策の 1 つは、グラフベースのポリシー学習 (GPL) と呼ばれる、グラフ ニューラル ネットワークの一般化性を活用して、無制限の数のエージェントを処理することです。
ただし、調整グラフ上の共同 Q 値表現には説得力のある説明が不足しています。
この論文では、協調ゲーム理論の観点から OAHT の共同 Q 値表現を理解するための新しい理論を確立し、その学習パラダイムを検証します。
私たちの理論に基づいて、学習を容易にする追加の証明可能な実装トリックを備えた、GPL フレームワークと互換性のある CIAO という名前の新しいアルゴリズムを提案します。
実験結果のデモは https://sites.google.com/view/ciao2024 で入手でき、実験のコードは https://github.com/hsvgbkhgbv/CIAO で公開されています。

要約(オリジナル)

Ad hoc teamwork poses a challenging problem, requiring the design of an agent to collaborate with teammates without prior coordination or joint training. Open ad hoc teamwork (OAHT) further complicates this challenge by considering environments with a changing number of teammates, referred to as open teams. One promising solution in practice to this problem is leveraging the generalizability of graph neural networks to handle an unrestricted number of agents, named graph-based policy learning (GPL). However, its joint Q-value representation over a coordination graph lacks convincing explanations. In this paper, we establish a new theory to understand the joint Q-value representation for OAHT, from the perspective of cooperative game theory, and validate its learning paradigm. Building on our theory, we propose a novel algorithm named CIAO, compatible with GPL framework, with additional provable implementation tricks that can facilitate learning. The demos of experimental results are available on https://sites.google.com/view/ciao2024, and the code of experiments is published on https://github.com/hsvgbkhgbv/CIAO.

arxiv情報

著者 Jianhong Wang,Yang Li,Yuan Zhang,Wei Pan,Samuel Kaski
発行日 2024-05-31 16:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク