要約
人間がセマンティック知識をどのように協力して利用して、なじみのない環境を探索し、ナビゲーション方向を決定するかを理解することは、ハウスサービスのマルチロボット システムにとって重要です。
以前の方法は主に単一ロボットの集中計画戦略に焦点を当てており、探査効率が大幅に制限されていました。
最近の研究では、各ロボットに個別の計画モデルを割り当てる、複数のロボットの分散型計画戦略が検討されていますが、これらのアプローチでは通信コストが見落とされることがよくあります。
この研究では、マルチモーダル思考連鎖協調ナビゲーション (MCoCoNav) を提案します。これは、マルチモーダル思考連鎖を利用して、複数のロボットの協調的なセマンティック ナビゲーションを計画するモジュール式アプローチです。
MCoCoNav は、視覚認識とビジョン言語モデル (VLM) を組み合わせて、確率的スコアリングを通じて探索価値を評価することで、時間コストを削減し、安定した出力を実現します。
さらに、グローバル セマンティック マップが通信ブリッジとして使用され、観測結果を統合しながら通信のオーバーヘッドを最小限に抑えます。
探索傾向を反映するスコアに基づいて、ロボットはこのマップを利用して、新しいフロンティア ポイントを探索するか、歴史ノードを再訪するかを評価します。
HM3D_v0.2 と MP3D での実験により、私たちのアプローチの有効性が実証されました。
私たちのコードは https://github.com/FrankZxShen/MCoCoNav.git で入手できます。
要約(オリジナル)
Understanding how humans cooperatively utilize semantic knowledge to explore unfamiliar environments and decide on navigation directions is critical for house service multi-robot systems. Previous methods primarily focused on single-robot centralized planning strategies, which severely limited exploration efficiency. Recent research has considered decentralized planning strategies for multiple robots, assigning separate planning models to each robot, but these approaches often overlook communication costs. In this work, we propose Multimodal Chain-of-Thought Co-Navigation (MCoCoNav), a modular approach that utilizes multimodal Chain-of-Thought to plan collaborative semantic navigation for multiple robots. MCoCoNav combines visual perception with Vision Language Models (VLMs) to evaluate exploration value through probabilistic scoring, thus reducing time costs and achieving stable outputs. Additionally, a global semantic map is used as a communication bridge, minimizing communication overhead while integrating observational results. Guided by scores that reflect exploration trends, robots utilize this map to assess whether to explore new frontier points or revisit history nodes. Experiments on HM3D_v0.2 and MP3D demonstrate the effectiveness of our approach. Our code is available at https://github.com/FrankZxShen/MCoCoNav.git.
arxiv情報
著者 | Zhixuan Shen,Haonan Luo,Kexun Chen,Fengmao Lv,Tianrui Li |
発行日 | 2024-12-24 09:00:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google