Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration

要約

人間がセマンティック知識をどのように協力して利用して、なじみのない環境を探索し、ナビゲーション方向を決定するかを理解することは、ハウスサービスのマルチロボットシステムにとって重要です。
以前の方法は主に単一ロボットの集中計画戦略に焦点を当てており、探査効率が大幅に制限されていました。
最近の研究では、各ロボットに個別の計画モデルを割り当てる、複数のロボットの分散型計画戦略が検討されていますが、これらのアプローチでは通信コストが見落とされることがよくあります。
この研究では、マルチモーダル思考連鎖協調ナビゲーション (MCoCoNav) を提案します。これは、マルチモーダル思考連鎖を利用して、複数のロボットの協調的なセマンティックナビゲーションを計画するモジュール式アプローチです。
MCoCoNav は、視覚認識とビジョン言語モデル (VLM) を組み合わせて、確率的スコアリングを通じて探索価値を評価することで、時間コストを削減し、安定した出力を実現します。
さらに、グローバルセマンティックマップが通信ブリッジとして使用され、観測結果を統合しながら通信のオーバーヘッドを最小限に抑えます。
探索傾向を反映するスコアに基づいて、ロボットはこのマップを利用して、新しいフロンティアポイントを探索するか、歴史ノードを再訪するかを評価します。
HM3D_v0.2 と MP3D での実験により、私たちのアプローチの有効性が実証されました。
私たちのコードは https://github.com/FrankZxShen/MCoCoNav.git で入手できます。

要約(オリジナル)

Understanding how humans cooperatively utilize semantic knowledge to explore unfamiliar environments and decide on navigation directions is critical for house service multi-robot systems. Previous methods primarily focused on single-robot centralized planning strategies, which severely limited exploration efficiency. Recent research has considered decentralized planning strategies for multiple robots, assigning separate planning models to each robot, but these approaches often overlook communication costs. In this work, we propose Multimodal Chain-of-Thought Co-Navigation (MCoCoNav), a modular approach that utilizes multimodal Chain-of-Thought to plan collaborative semantic navigation for multiple robots. MCoCoNav combines visual perception with Vision Language Models (VLMs) to evaluate exploration value through probabilistic scoring, thus reducing time costs and achieving stable outputs. Additionally, a global semantic map is used as a communication bridge, minimizing communication overhead while integrating observational results. Guided by scores that reflect exploration trends, robots utilize this map to assess whether to explore new frontier points or revisit history nodes. Experiments on HM3D_v0.2 and MP3D demonstrate the effectiveness of our approach. Our code is available at https://github.com/FrankZxShen/MCoCoNav.git.

arxiv情報

著者	Zhixuan Shen,Haonan Luo,Kexun Chen,Fengmao Lv,Tianrui Li
発行日	2024-12-24 09:00:31+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー