要約
マルチエージェント強化学習(MARL)は、制御された、しかし困難なシナリオにおけるアルゴリズムの系統的評価を可能にする、特殊なテストベッドの開発によって大きく前進した。しかし、既存のテストベッドは、純粋な仮想シミュレーションや、ロボットアーム、四足歩行、ヒューマノイドのような限定されたロボット形態に焦点を当てていることが多く、ドローンのような現実世界の物理的制約を持つ高機動プラットフォームは未開拓のままである。このギャップを埋めるために、我々は新しいMARLテストベッドであるVolleyBotsを紹介します。VolleyBotsでは、複数のドローンが協力し、物理ダイナミクスの下でバレーボールというスポーツで競い合います。VolleyBotsは、バレーボールのルールに基づいたターンベースのインタラクションモデル、モーションコントロールと戦略的なプレーを組み合わせた階層的な意思決定プロセス、シームレスなシミュレーションからリアルへの移行のための高忠実度のシミュレーションを特徴としています。代表的なMARLアルゴリズムとゲーム理論的アルゴリズムのベースライン評価とともに、シングルドローンのドリルからマルチドローンの協力・対戦タスクまで、包括的なタスク群を提供します。シミュレーションの結果は、既存のアルゴリズムが単純なタスクを効果的に処理する一方で、低レベルの制御と高レベルの戦略の両方を必要とする複雑なタスクでは困難に遭遇することを示しています。さらに、シミュレーションで学習したポリシーを実世界のドローンにゼロショットで展開することを実証し、VolleyBotsが機敏なロボットプラットフォームを含むMARL研究を推進する可能性を強調している。プロジェクトのページはhttps://sites.google.com/view/volleybots/home。
要約(オリジナル)
Multi-agent reinforcement learning (MARL) has made significant progress, largely fueled by the development of specialized testbeds that enable systematic evaluation of algorithms in controlled yet challenging scenarios. However, existing testbeds often focus on purely virtual simulations or limited robot morphologies such as robotic arms, quadrupeds, and humanoids, leaving high-mobility platforms with real-world physical constraints like drones underexplored. To bridge this gap, we present VolleyBots, a new MARL testbed where multiple drones cooperate and compete in the sport of volleyball under physical dynamics. VolleyBots features a turn-based interaction model under volleyball rules, a hierarchical decision-making process that combines motion control and strategic play, and a high-fidelity simulation for seamless sim-to-real transfer. We provide a comprehensive suite of tasks ranging from single-drone drills to multi-drone cooperative and competitive tasks, accompanied by baseline evaluations of representative MARL and game-theoretic algorithms. Results in simulation show that while existing algorithms handle simple tasks effectively, they encounter difficulty in complex tasks that require both low-level control and high-level strategy. We further demonstrate zero-shot deployment of a simulation-learned policy to real-world drones, highlighting VolleyBots’ potential to propel MARL research involving agile robotic platforms. The project page is at https://sites.google.com/view/volleybots/home.
arxiv情報
著者 | Zelai Xu,Chao Yu,Ruize Zhang,Huining Yuan,Xiangmin Yi,Shilong Ji,Chuqi Wang,Wenhao Tang,Yu Wang |
発行日 | 2025-02-04 02:07:23+00:00 |
arxivサイト | arxiv_id(pdf) |