IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation

要約

視覚と言語のナビゲーション (VLN) は、ロボットが人間の自然言語の指示に従って写真のように現実的な環境をナビゲートする必要がある難しいタスクです。
最近の研究は、環境の意味論的空間マップ表現を構築し、ロボットのナビゲーションを誘導するためのコードを一般化するために大規模な言語モデルの強力な推論能力を活用することで、このタスクに対処することを目的としています。
ただし、これらのメソッドは、同じオブジェクトの異なるインスタンスを区別できないため、インスタンス レベルおよび属性レベルのナビゲーション タスクにおいて制限に直面します。
この課題に対処するために、私たちは、収集された RGBD ビデオ データを融合することによって自律的に構築される、インスタンス レベルおよび属性レベルのセマンティック マッピングをロボットに提供する新しい方法、つまりインスタンス対応ビジュアル言語マップ (IVLMap) を提案します。
鳥瞰図で特別に設計された自然言語マップのインデックスを備えたロボット エージェントから。
このようなインデックス付けは、インスタンス レベルおよび属性レベルで行われます。
特に、大規模な言語モデルと統合すると、IVLMap は、i) インスタンスおよび属性情報を使用して自然言語をナビゲーション ターゲットに変換し、正確なローカリゼーションを可能にし、ii) に基づいてゼロショットのエンドツーエンド ナビゲーション タスクを実行する機能を実証します。
自然言語コマンド。
大規模なナビゲーション実験が行われます。
シミュレーション結果は、私たちの方法がナビゲーション精度において平均 14.4\% の向上を達成できることを示しています。
コードとデモは https://ivlmap.github.io/ でリリースされます。

要約(オリジナル)

Vision-and-Language Navigation (VLN) is a challenging task that requires a robot to navigate in photo-realistic environments with human natural language promptings. Recent studies aim to handle this task by constructing the semantic spatial map representation of the environment, and then leveraging the strong ability of reasoning in large language models for generalizing code for guiding the robot navigation. However, these methods face limitations in instance-level and attribute-level navigation tasks as they cannot distinguish different instances of the same object. To address this challenge, we propose a new method, namely, Instance-aware Visual Language Map (IVLMap), to empower the robot with instance-level and attribute-level semantic mapping, where it is autonomously constructed by fusing the RGBD video data collected from the robot agent with special-designed natural language map indexing in the bird’s-in-eye view. Such indexing is instance-level and attribute-level. In particular, when integrated with a large language model, IVLMap demonstrates the capability to i) transform natural language into navigation targets with instance and attribute information, enabling precise localization, and ii) accomplish zero-shot end-to-end navigation tasks based on natural language commands. Extensive navigation experiments are conducted. Simulation results illustrate that our method can achieve an average improvement of 14.4\% in navigation accuracy. Code and demo are released at https://ivlmap.github.io/.

arxiv情報

著者 Jiacui Huang,Hongtao Zhang,Mingbo Zhao,Zhou Wu
発行日 2024-03-28 11:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク