Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation Learning

要約

この論文は、協調的なマルチエージェント システムにおける模倣学習 (IL) (つまり、デモンストレーションから専門家の行動を模倣することを学習する問題) に関するものです。
検討中の学習問題は、高次元の状態空間とアクション空間、および複雑なエージェント間の依存関係を特徴とするいくつかの課題を引き起こします。
シングルエージェント設定では、専門家のデモンストレーションにより、逆ソフト Q 学習プロセスを通じて IL が効率的に実行されることが証明されています。
ただし、このフレームワークをマルチエージェント コンテキストに拡張すると、ローカルな観察と個々のアクションを捕捉するためのローカルな価値関数と、集中学習を活用するための共同の価値関数の両方を同時に学習する必要が生じます。
この研究では、これらの課題に対処するために設計された新しいマルチエージェント IL アルゴリズムを紹介します。
私たちのアプローチは、混合ネットワークを活用して分散型 Q 関数を集約することにより、集中学習を可能にします。
このアプローチの主な利点は、グローバル状態から得られる情報を使用して混合ネットワークの重みをトレーニングできることです。
さらに、マルチエージェント目的関数が Q 関数空間内で凸性を示す混合ネットワークの条件を確立します。
私たちは、Star-Craft マルチエージェント チャレンジ (つまり SMACv2) の高度なバージョンを含む、いくつかの挑戦的な競争および協力マルチエージェント ゲーム環境で行われた広範な実験を紹介します。これは、既存の現状と比較して、私たちが提案するアルゴリズムの有効性を示しています。
-最先端のマルチエージェント IL アルゴリズム。

要約(オリジナル)

This paper concerns imitation learning (IL) (i.e, the problem of learning to mimic expert behaviors from demonstrations) in cooperative multi-agent systems. The learning problem under consideration poses several challenges, characterized by high-dimensional state and action spaces and intricate inter-agent dependencies. In a single-agent setting, IL has proven to be done efficiently through an inverse soft-Q learning process given expert demonstrations. However, extending this framework to a multi-agent context introduces the need to simultaneously learn both local value functions to capture local observations and individual actions, and a joint value function for exploiting centralized learning. In this work, we introduce a novel multi-agent IL algorithm designed to address these challenges. Our approach enables the centralized learning by leveraging mixing networks to aggregate decentralized Q functions. A main advantage of this approach is that the weights of the mixing networks can be trained using information derived from global states. We further establish conditions for the mixing networks under which the multi-agent objective function exhibits convexity within the Q function space. We present extensive experiments conducted on some challenging competitive and cooperative multi-agent game environments, including an advanced version of the Star-Craft multi-agent challenge (i.e., SMACv2), which demonstrates the effectiveness of our proposed algorithm compared to existing state-of-the-art multi-agent IL algorithms.

arxiv情報

著者 The Viet Bui,Tien Mai,Thanh Hong Nguyen
発行日 2023-10-10 17:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク