要約
強化学習エージェントの一般的な能力を向上させる方法として、難易度の高い課題を自動生成するオープンエンド型学習法が有望視されている。既存の手法は、環境パラメータ(シングルエージェントの場合)または共同プレイヤーの方針(マルチエージェントの場合)に対して独立してカリキュラムを適応する。しかし、共同プレイヤーの長所と短所は、環境の特徴によって異なる形で現れる可能性があります。そのため、マルチエージェント領域でカリキュラムを形成する際には、環境と共同プレーヤーの依存関係を考慮することが極めて重要である。本研究では、この知見を利用して、教師なし環境設計(UED)をマルチエージェント環境へ拡張します。そして、2人対戦のゼロサムセッティングのための最初のマルチエージェントUEDアプローチであるMulti-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO) を紹介する。MAESTROは、環境とプレイヤーの両方に対して、敵対的な共同カリキュラムを効率的に作成し、ナッシュ均衡において最小限の後悔を保証する。我々の実験では、MAESTROが、離散的および連続的な制御設定にまたがる競争的な2人ゲームにおいて、多くの強力なベースラインを凌駕することが示された。
要約(オリジナル)
Open-ended learning methods that automatically generate a curriculum of increasingly challenging tasks serve as a promising avenue toward generally capable reinforcement learning agents. Existing methods adapt curricula independently over either environment parameters (in single-agent settings) or co-player policies (in multi-agent settings). However, the strengths and weaknesses of co-players can manifest themselves differently depending on environmental features. It is thus crucial to consider the dependency between the environment and co-player when shaping a curriculum in multi-agent domains. In this work, we use this insight and extend Unsupervised Environment Design (UED) to multi-agent environments. We then introduce Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO), the first multi-agent UED approach for two-player zero-sum settings. MAESTRO efficiently produces adversarial, joint curricula over both environments and co-players and attains minimax-regret guarantees at Nash equilibrium. Our experiments show that MAESTRO outperforms a number of strong baselines on competitive two-player games, spanning discrete and continuous control settings.
arxiv情報
著者 | Mikayel Samvelyan,Akbir Khan,Michael Dennis,Minqi Jiang,Jack Parker-Holder,Jakob Foerster,Roberta Raileanu,Tim Rocktäschel |
発行日 | 2023-03-06 18:57:41+00:00 |
arxivサイト | arxiv_id(pdf) |