要約
高度な人間とロボットのインタラクションタスクでは、自律ロボットが未知の環境をナビゲートするために、視覚的なターゲットナビゲーションが不可欠です。
これまでに数多くのアプローチが開発されてきましたが、そのほとんどは単一ロボットの操作向けに設計されており、環境の複雑さによって効率や堅牢性が低下することがよくあります。
さらに、複数のロボットのコラボレーションのための学習ポリシーはリソースを大量に消費します。
これらの課題に対処するために、マルチロボットの協調的な視覚ターゲット ナビゲーションのためのグローバル プランナーとして大規模言語モデル (LLM) を統合する革新的なフレームワークである Co-NavGPT を提案します。
Co-NavGPT は、探索された環境データをプロンプトにエンコードし、LLM のシーン理解を強化します。
次に、効率的なターゲット検索のために各ロボットに探索フロンティアを割り当てます。
Habitat-Matterport 3D (HM3D) の実験結果は、Co-NavGPT が学習プロセスなしで成功率と効率において既存のモデルを上回っていることを示し、マルチロボット コラボレーション ドメインにおける LLM の膨大な可能性を実証しています。
補足ビデオ、プロンプト、コードには、次のリンクからアクセスできます: https://sites.google.com/view/co-navgpt
要約(オリジナル)
In advanced human-robot interaction tasks, visual target navigation is crucial for autonomous robots navigating unknown environments. While numerous approaches have been developed in the past, most are designed for single-robot operations, which often suffer from reduced efficiency and robustness due to environmental complexities. Furthermore, learning policies for multi-robot collaboration are resource-intensive. To address these challenges, we propose Co-NavGPT, an innovative framework that integrates Large Language Models (LLMs) as a global planner for multi-robot cooperative visual target navigation. Co-NavGPT encodes the explored environment data into prompts, enhancing LLMs’ scene comprehension. It then assigns exploration frontiers to each robot for efficient target search. Experimental results on Habitat-Matterport 3D (HM3D) demonstrate that Co-NavGPT surpasses existing models in success rates and efficiency without any learning process, demonstrating the vast potential of LLMs in multi-robot collaboration domains. The supplementary video, prompts, and code can be accessed via the following link: https://sites.google.com/view/co-navgpt
arxiv情報
著者 | Bangguo Yu,Hamidreza Kasaei,Ming Cao |
発行日 | 2023-12-25 07:57:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google