TiZero: Mastering Multi-Agent Football with Curriculum Learning and Self-Play

要約

マルチエージェント フットボールは、AI 研究において未解決の課題をもたらします。
既存の作業は、ゲームの単純化されたシナリオへの取り組み、または専門家によるデモンストレーションの活用に重点を置いてきました。
このホワイト ペーパーでは、デモンストレーションなしで 11 対 11 の完全なゲーム モードをプレイするためのマルチエージェント システムを開発します。
このゲーム モードには、最新の強化学習アルゴリズムに大きな課題を提示する側面が含まれています。
マルチエージェント調整、長期計画、および非推移性。
これらの課題に対処するために、TiZero を紹介します。
ゼロから学習する、自己進化型のマルチエージェント システム。
TiZero は、適応カリキュラム学習、斬新なセルフプレイ戦略、複数のエージェントのポリシーを共同で最適化する目的など、いくつかのイノベーションを導入しています。
実験的には、Google Research Football 環境で以前のシステムを大幅に上回り、勝率が 30% 以上向上しました。
TiZero のイノベーションの一般性を実証するために、それらはサッカー以外のいくつかの環境で評価されます。
加熱しすぎた、マルチエージェント粒子環境、三目並べ、コネクト フォー。

要約(オリジナル)

Multi-agent football poses an unsolved challenge in AI research. Existing work has focused on tackling simplified scenarios of the game, or else leveraging expert demonstrations. In this paper, we develop a multi-agent system to play the full 11 vs. 11 game mode, without demonstrations. This game mode contains aspects that present major challenges to modern reinforcement learning algorithms; multi-agent coordination, long-term planning, and non-transitivity. To address these challenges, we present TiZero; a self-evolving, multi-agent system that learns from scratch. TiZero introduces several innovations, including adaptive curriculum learning, a novel self-play strategy, and an objective that optimizes the policies of multiple agents jointly. Experimentally, it outperforms previous systems by a large margin on the Google Research Football environment, increasing win rates by over 30%. To demonstrate the generality of TiZero’s innovations, they are assessed on several environments beyond football; Overcooked, Multi-agent Particle-Environment, Tic-Tac-Toe and Connect-Four.

arxiv情報

著者 Fanqi Lin,Shiyu Huang,Tim Pearce,Wenze Chen,Wei-Wei Tu
発行日 2023-02-15 08:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク