要約
困難なシミュレーション環境を利用できることは、マルチエージェント強化学習 (MARL) の分野を進歩させる上で極めて重要です。
協調的な MARL 設定では、分散型実行パラダイムによる集中型トレーニングに続くアルゴリズムのベンチマークとして、StarCraft Multi-Agent Challenge (SMAC) が注目を集めています。
しかし、SMAC の継続的な進歩により、多くのアルゴリズムが最適に近いパフォーマンスを示すようになり、その真の有効性の評価が複雑になっています。
この問題を軽減するために、この研究では、重大な問題を強調します。これらの環境におけるデフォルトの相手ポリシーには十分な多様性が欠けており、MARL アルゴリズムが堅牢な戦略を学習するのではなく、オーバーフィットして意図しない脆弱性を悪用することになります。
これらの制限を克服するために、トレーニングの堅牢性と評価の包括性を強化するように設計された新しいベンチマークである SMAC-HARD を提案します。
SMAC-HARD は、カスタマイズ可能な対戦相手の戦略、敵対的ポリシーのランダム化、MARL セルフプレイのインターフェイスをサポートしており、エージェントがさまざまな対戦相手の行動に一般化してモデルの安定性を向上させることができます。
さらに、ブラックボックス テスト フレームワークを導入します。このフレームワークでは、エージェントは編集された相手のスクリプトにさらされることなくトレーニングされますが、ポリシーの適用範囲と MARL アルゴリズムの適応性を評価するために、これらのスクリプトに対してテストされます。
私たちは、SMAC-HARD で広く使用されている最先端のアルゴリズムの広範な評価を実施し、編集され混合された戦略の敵対者によってもたらされる実質的な課題を明らかにします。
さらに、ブラックボックス戦略テストは、学習したポリシーを目に見えない敵に移転することの難しさを示しています。
私たちは、SMAC-HARD が次世代の MARL アルゴリズムのベンチマークに向けた重要なステップであり、マルチエージェント システムのセルフプレイ手法の進歩を促進すると考えています。
私たちのコードは https://github.com/devindeng94/smac-hard で入手できます。
要約(オリジナル)
The availability of challenging simulation environments is pivotal for advancing the field of Multi-Agent Reinforcement Learning (MARL). In cooperative MARL settings, the StarCraft Multi-Agent Challenge (SMAC) has gained prominence as a benchmark for algorithms following centralized training with decentralized execution paradigm. However, with continual advancements in SMAC, many algorithms now exhibit near-optimal performance, complicating the evaluation of their true effectiveness. To alleviate this problem, in this work, we highlight a critical issue: the default opponent policy in these environments lacks sufficient diversity, leading MARL algorithms to overfit and exploit unintended vulnerabilities rather than learning robust strategies. To overcome these limitations, we propose SMAC-HARD, a novel benchmark designed to enhance training robustness and evaluation comprehensiveness. SMAC-HARD supports customizable opponent strategies, randomization of adversarial policies, and interfaces for MARL self-play, enabling agents to generalize to varying opponent behaviors and improve model stability. Furthermore, we introduce a black-box testing framework wherein agents are trained without exposure to the edited opponent scripts but are tested against these scripts to evaluate the policy coverage and adaptability of MARL algorithms. We conduct extensive evaluations of widely used and state-of-the-art algorithms on SMAC-HARD, revealing the substantial challenges posed by edited and mixed strategy opponents. Additionally, the black-box strategy tests illustrate the difficulty of transferring learned policies to unseen adversaries. We envision SMAC-HARD as a critical step toward benchmarking the next generation of MARL algorithms, fostering progress in self-play methods for multi-agent systems. Our code is available at https://github.com/devindeng94/smac-hard.
arxiv情報
著者 | Yue Deng,Yan Yu,Weiyu Ma,Zirui Wang,Wenhui Zhu,Jian Zhao,Yin Zhang |
発行日 | 2024-12-24 16:16:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google