Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration

要約

タイトル:効率的なリアルタイム多ロボット協調探査のための非同期マルチエージェント強化学習

要約:

1.複数のロボットが、できるだけ早く未知の領域を協調して探索する問題を考える。

2.マルチエージェント強化学習(MARL)は、この課題を解決するトレンディなパラダイムとなっている。

3.ただし、既存のMARLベースの手法では、すべてのエージェントが完全に同期して行動するという前提で、行動制作ステップを探索効率のメトリックとして採用している。しかし、実際のロボット応用においては、異なるロボットが原子的なアクションを達成するためにわずかに異なるウォールクロック時間を必要としたり、ハードウェアの問題で定期的に失われたりすることがあり、すべてのロボットが次のアクションの準備ができるのを単に待つことは特に時間の無駄である。

4.そこで、実世界の課題に対処する非同期MARLソリューション、Asynchronous Coordination Explorer(ACE)を提案する。

5.まず、古典的なMARLアルゴリズム、multi-agent PPO(MAPPO)を非同期設定に拡張し、学習されたポリシーが実世界のさまざまなアクション遅延に対して一般化するように、アクション遅延ランダム化を適用する。

6.さらに、各ナビゲーションエージェントは、可能なロボットロストを処理することにより、実世界の展開に非常に役立つteam-size-invariant CNNベースのポリシーとして表現され、低次元のCNN特徴を介した帯域幅効率的なインターエージェント通信を実現する。

7.まず、グリッドベースのシナリオでアプローチを検証する。

8.シミュレーションと実世界の結果の両方で、ACEは古典的なアプローチに比べて実際の探索時間を10%以上短縮することを示した。

9.また、Habitatという高信頼度のビジュアルベースの環境でもフレームワークを適用し、探査効率を28%改善した。

要約(オリジナル)

We consider the problem of cooperative exploration where multiple robots need to cooperatively explore an unknown region as fast as possible. Multi-agent reinforcement learning (MARL) has recently become a trending paradigm for solving this challenge. However, existing MARL-based methods adopt action-making steps as the metric for exploration efficiency by assuming all the agents are acting in a fully synchronous manner: i.e., every single agent produces an action simultaneously and every single action is executed instantaneously at each time step. Despite its mathematical simplicity, such a synchronous MARL formulation can be problematic for real-world robotic applications. It can be typical that different robots may take slightly different wall-clock times to accomplish an atomic action or even periodically get lost due to hardware issues. Simply waiting for every robot being ready for the next action can be particularly time-inefficient. Therefore, we propose an asynchronous MARL solution, Asynchronous Coordination Explorer (ACE), to tackle this real-world challenge. We first extend a classical MARL algorithm, multi-agent PPO (MAPPO), to the asynchronous setting and additionally apply action-delay randomization to enforce the learned policy to generalize better to varying action delays in the real world. Moreover, each navigation agent is represented as a team-size-invariant CNN-based policy, which greatly benefits real-robot deployment by handling possible robot lost and allows bandwidth-efficient intra-agent communication through low-dimensional CNN features. We first validate our approach in a grid-based scenario. Both simulation and real-robot results show that ACE reduces over 10% actual exploration time compared with classical approaches. We also apply our framework to a high-fidelity visual-based environment, Habitat, achieving 28% improvement in exploration efficiency.

arxiv情報

著者 Chao Yu,Xinyi Yang,Jiaxuan Gao,Jiayu Chen,Yunfei Li,Jijia Liu,Yunfei Xiang,Ruixin Huang,Huazhong Yang,Yi Wu,Yu Wang
発行日 2023-04-11 07:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.RO パーマリンク