要約
複雑な協調タスクにおけるマルチエージェント強化学習(MARL)の最適戦略を発見するためには、効果的な探索が極めて重要である。既存の手法では、行動観察空間全体を直接探索するのではなく、固有報酬を利用して探索を行ったり、役割ベースの学習を用いて共同行動空間を分割したりしている。しかしながら、これらはしばしば、長ホライズンタスクにおいて成功状態に到達するための特定の共同行動シーケンスを得るという課題に直面する。この限界に対処するために、我々は、複雑なシナリオにおける効率的なマルチエージェント探索のための有望な解決策を提供する新しい手法であるImagine, Initialize, and Explore (IIE)を提案する。IIEは、エージェントが互いの遷移関数に影響を与えるようなクリティカルな状態にどのように到達するかを想像するために、変換モデルを用いる。そして、探索フェーズの前に、シミュレータを用いて環境をこの状態に初期化する。状態、観察、プロンプト、行動、報酬は自己回帰的に予測される。プロンプトはtimestep-to-go、return-to-go、influence value、one-shot demonstrationから構成され、望ましい状態と軌道を指定し、行動生成を導く。エージェントをクリティカルな状態で初期化することで、IIEは潜在的に重要な未踏領域を発見する可能性を大幅に高める。そのシンプルさにもかかわらず、我々の手法はStarCraft Multi-Agent Challenge (SMAC)およびSMACv2環境において、マルチエージェント探索のベースラインを上回ることを実証した。特に、IIEはスパースリワードのSMACタスクにおいて、CVAE-GANや拡散モデルなどの他の生成手法よりも優れた性能を示し、初期化された状態に対してより効果的なカリキュラムを生成する。
要約(オリジナル)
Effective exploration is crucial to discovering optimal strategies for multi-agent reinforcement learning (MARL) in complex coordination tasks. Existing methods mainly utilize intrinsic rewards to enable committed exploration or use role-based learning for decomposing joint action spaces instead of directly conducting a collective search in the entire action-observation space. However, they often face challenges obtaining specific joint action sequences to reach successful states in long-horizon tasks. To address this limitation, we propose Imagine, Initialize, and Explore (IIE), a novel method that offers a promising solution for efficient multi-agent exploration in complex scenarios. IIE employs a transformer model to imagine how the agents reach a critical state that can influence each other’s transition functions. Then, we initialize the environment at this state using a simulator before the exploration phase. We formulate the imagination as a sequence modeling problem, where the states, observations, prompts, actions, and rewards are predicted autoregressively. The prompt consists of timestep-to-go, return-to-go, influence value, and one-shot demonstration, specifying the desired state and trajectory as well as guiding the action generation. By initializing agents at the critical states, IIE significantly increases the likelihood of discovering potentially important under-explored regions. Despite its simplicity, empirical results demonstrate that our method outperforms multi-agent exploration baselines on the StarCraft Multi-Agent Challenge (SMAC) and SMACv2 environments. Particularly, IIE shows improved performance in the sparse-reward SMAC tasks and produces more effective curricula over the initialized states than other generative methods, such as CVAE-GAN and diffusion models.
arxiv情報
著者 | Zeyang Liu,Lipeng Wan,Xinrui Yang,Zhuoran Chen,Xingyu Chen,Xuguang Lan |
発行日 | 2024-03-01 11:08:48+00:00 |
arxivサイト | arxiv_id(pdf) |