Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learning

要約

この論文では、高レベルの戦略的調整と低レベルのアジャイルコントロールの両方を必要とする新しい具体化された競争的タスクである3V3マルチドローンバレーボールをプレイすることを学ぶ問題に取り組んでいます。
このタスクは、ターンベース、マルチエージェント、および物理的に接地された、その長期の依存性、緊密なエージェント間結合、および四つの過少活動ダイナミクスのために大きな課題をもたらします。
これに対処するために、集中化された高レベルの戦略的意思決定を分散化された低レベルモーションコントロールと分離する階層補強学習フレームワークである階層的な共同セルフプレイ(HCSP)を提案します。
3段階の人口ベースのトレーニングパイプラインを設計して、戦略とスキルの両方が専門家のデモンストレーションなしでゼロから出現できるようにします。(i)多様な低レベルスキル、(ii)固定低レベルコントローラーでの自己プレイを介した高レベルの戦略を学習し、(iii)共同セルフプレイを通じて共同微調整。
実験では、HCSPが優れたパフォーマンスを達成し、平均82.9 \%の勝率と2段階のバリアントに対して71.5 \%の勝率で、非階層的な自己プレイとルールベースの階層ベースラインを上回ることが示されています。
さらに、共同自己プレイは、役割の切り替えや調整形成などの緊急チームの行動につながり、階層的な設計とトレーニングスキームの有効性を実証します。

要約(オリジナル)

In this paper, we tackle the problem of learning to play 3v3 multi-drone volleyball, a new embodied competitive task that requires both high-level strategic coordination and low-level agile control. The task is turn-based, multi-agent, and physically grounded, posing significant challenges due to its long-horizon dependencies, tight inter-agent coupling, and the underactuated dynamics of quadrotors. To address this, we propose Hierarchical Co-Self-Play (HCSP), a hierarchical reinforcement learning framework that separates centralized high-level strategic decision-making from decentralized low-level motion control. We design a three-stage population-based training pipeline to enable both strategy and skill to emerge from scratch without expert demonstrations: (I) training diverse low-level skills, (II) learning high-level strategy via self-play with fixed low-level controllers, and (III) joint fine-tuning through co-self-play. Experiments show that HCSP achieves superior performance, outperforming non-hierarchical self-play and rule-based hierarchical baselines with an average 82.9\% win rate and a 71.5\% win rate against the two-stage variant. Moreover, co-self-play leads to emergent team behaviors such as role switching and coordinated formations, demonstrating the effectiveness of our hierarchical design and training scheme.

arxiv情報

著者 Ruize Zhang,Sirui Xiang,Zelai Xu,Feng Gao,Shilong Ji,Wenhao Tang,Wenbo Ding,Chao Yu,Yu Wang
発行日 2025-05-07 11:04:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク