MARVEL: Multi-Agent Reinforcement Learning for constrained field-of-View multi-robot Exploration in Large-scale environments

要約

マルチロボット探査では、モバイルロボットのチームが未知の環境を効率的にマッピングすることを担当しています。
ほとんどの探査プランナーはLidarのような全方向性センサーを想定していますが、これはドローンなどの小さなロボットでは非現実的です。ここでは、カメラのような軽量で方向性のあるセンサーがペイロードの制約のために唯一のオプションです。
これらのセンサーには制限のあるフィールドオブビュー(FOV)があり、探索問題に複雑さを加え、最適なロボットの位置付けだけでなく、動き中のセンサーの向きも必要です。
この作業では、Graph Attonest Networksと新しいフロンティアとオリエンテーション機能の融合技術を活用するニューラルフレームワークであるMarvelを提案し、制約付きFOVのロボットのマルチエージェント補強学習(MARL)を使用して共同分散型ポリシーを開発します。
視点計画の大きなアクション空間を処理するために、新しい情報駆動型アクションプルーニング戦略をさらに紹介します。
Marvelは、追加のトレーニングなしで、さまざまなチームサイズとセンサー構成(FOVおよびセンサーの範囲)に適応しながら、大規模な屋内環境に挑戦するマルチロボット調整と意思決定を改善します。
当社の広範な評価は、Marvelの学んだポリシーが効果的な調整された行動を示し、複数のメトリックにわたって最先端の探査プランナーを上回ることを示しています。
最大90m x 90mの大規模な環境でのMarvelの一般化可能性を実験的に示し、実際のドローンハードウェアのチームでの展開を成功させることで、その実用的な適用性を検証します。

要約(オリジナル)

In multi-robot exploration, a team of mobile robot is tasked with efficiently mapping an unknown environments. While most exploration planners assume omnidirectional sensors like LiDAR, this is impractical for small robots such as drones, where lightweight, directional sensors like cameras may be the only option due to payload constraints. These sensors have a constrained field-of-view (FoV), which adds complexity to the exploration problem, requiring not only optimal robot positioning but also sensor orientation during movement. In this work, we propose MARVEL, a neural framework that leverages graph attention networks, together with novel frontiers and orientation features fusion technique, to develop a collaborative, decentralized policy using multi-agent reinforcement learning (MARL) for robots with constrained FoV. To handle the large action space of viewpoints planning, we further introduce a novel information-driven action pruning strategy. MARVEL improves multi-robot coordination and decision-making in challenging large-scale indoor environments, while adapting to various team sizes and sensor configurations (i.e., FoV and sensor range) without additional training. Our extensive evaluation shows that MARVEL’s learned policies exhibit effective coordinated behaviors, outperforming state-of-the-art exploration planners across multiple metrics. We experimentally demonstrate MARVEL’s generalizability in large-scale environments, of up to 90m by 90m, and validate its practical applicability through successful deployment on a team of real drone hardware.

arxiv情報

著者 Jimmy Chiun,Shizhe Zhang,Yizhuo Wang,Yuhong Cao,Guillaume Sartoretti
発行日 2025-02-27 15:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO パーマリンク