Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models

要約

高度な人間とロボットのインタラクションタスクでは、自律ロボットが未知の環境をナビゲートするために、視覚的なターゲットナビゲーションが不可欠です。
これまでに数多くのアプローチが開発されてきましたが、そのほとんどは単一ロボットの操作向けに設計されており、環境の複雑さによって効率や堅牢性が低下することがよくあります。
さらに、複数のロボットのコラボレーションのための学習ポリシーはリソースを大量に消費します。
これらの課題に対処するために、マルチロボットの協調的な視覚ターゲットナビゲーションのためのグローバルプランナーとして大規模言語モデル (LLM) を統合する革新的なフレームワークである Co-NavGPT を提案します。
Co-NavGPT は、探索された環境データをプロンプトにエンコードし、LLM のシーン理解を強化します。
次に、効率的なターゲット検索のために各ロボットに探索フロンティアを割り当てます。
Habitat-Matterport 3D (HM3D) の実験結果は、Co-NavGPT が学習プロセスなしで成功率と効率において既存のモデルを上回っていることを示し、マルチロボットコラボレーションドメインにおける LLM の膨大な可能性を実証しています。
補足ビデオ、プロンプト、コードには、次のリンクからアクセスできます: https://sites.google.com/view/co-navgpt

要約(オリジナル)

In advanced human-robot interaction tasks, visual target navigation is crucial for autonomous robots navigating unknown environments. While numerous approaches have been developed in the past, most are designed for single-robot operations, which often suffer from reduced efficiency and robustness due to environmental complexities. Furthermore, learning policies for multi-robot collaboration are resource-intensive. To address these challenges, we propose Co-NavGPT, an innovative framework that integrates Large Language Models (LLMs) as a global planner for multi-robot cooperative visual target navigation. Co-NavGPT encodes the explored environment data into prompts, enhancing LLMs’ scene comprehension. It then assigns exploration frontiers to each robot for efficient target search. Experimental results on Habitat-Matterport 3D (HM3D) demonstrate that Co-NavGPT surpasses existing models in success rates and efficiency without any learning process, demonstrating the vast potential of LLMs in multi-robot collaboration domains. The supplementary video, prompts, and code can be accessed via the following link: https://sites.google.com/view/co-navgpt

arxiv情報

著者	Bangguo Yu,Hamidreza Kasaei,Ming Cao
発行日	2023-12-25 07:57:13+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー