Multi-Agent Diagnostics for Robustness via Illuminated Diversity

要約

急速に進歩しているマルチエージェント システムの分野では、不慣れな敵対的な環境における堅牢性を確保することが重要です。
これらのシステムは、使い慣れた環境では優れたパフォーマンスを発揮しますが、トレーニング段階での過剰適合により、新しい状況ではうまく動作しないことがよくあります。
これは、協力的行動と競争的行動の両方が存在する環境で特に顕著であり、過剰適合と一般化の課題の二重の性質を内包しています。
この問題に対処するために、事前にトレーニングされたマルチエージェント ポリシーの戦略的脆弱性を明らかにする、多様な敵対的シナリオを生成するための新しいアプローチである、照明ダイバーシティによる堅牢性のためのマルチエージェント診断 (MADRID) を紹介します。
MADRID は、オープンエンド学習の概念を活用して、敵対的な設定の広大な空間をナビゲートし、ターゲット ポリシーの後悔を利用して、これらの設定の脆弱性を評価します。
マルチエージェント強化学習にとって最も複雑な環境の 1 つである Google Research Football の 11vs11 バージョンでの MADRID の有効性を評価します。
具体的には、TiZero の多様な敵対的設定を生成するために MADRID を採用しています。これは、大規模な分散インフラストラクチャ上で 45 日間のトレーニングを通じてゲームを「マスター」する最先端のアプローチです。
私たちは、TiZero の戦術的意思決定における主要な欠点を明らかにし、マルチエージェント システムにおける厳密な評価の極めて重要性を強調します。

要約(オリジナル)

In the rapidly advancing field of multi-agent systems, ensuring robustness in unfamiliar and adversarial settings is crucial. Notwithstanding their outstanding performance in familiar environments, these systems often falter in new situations due to overfitting during the training phase. This is especially pronounced in settings where both cooperative and competitive behaviours are present, encapsulating a dual nature of overfitting and generalisation challenges. To address this issue, we present Multi-Agent Diagnostics for Robustness via Illuminated Diversity (MADRID), a novel approach for generating diverse adversarial scenarios that expose strategic vulnerabilities in pre-trained multi-agent policies. Leveraging the concepts from open-ended learning, MADRID navigates the vast space of adversarial settings, employing a target policy’s regret to gauge the vulnerabilities of these settings. We evaluate the effectiveness of MADRID on the 11vs11 version of Google Research Football, one of the most complex environments for multi-agent reinforcement learning. Specifically, we employ MADRID for generating a diverse array of adversarial settings for TiZero, the state-of-the-art approach which ‘masters’ the game through 45 days of training on a large-scale distributed infrastructure. We expose key shortcomings in TiZero’s tactical decision-making, underlining the crucial importance of rigorous evaluation in multi-agent systems.

arxiv情報

著者 Mikayel Samvelyan,Davide Paglieri,Minqi Jiang,Jack Parker-Holder,Tim Rocktäschel
発行日 2024-01-24 14:02:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク