VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation

要約

人間が意味論的な知識をどのように活用して不慣れな環境をナビゲートし、次にどこを探索するかを決定する方法を理解することは、人間のような検索行動が可能なロボットを開発する上で極めて重要です。
ゼロショット ナビゲーション アプローチであるビジョン言語フロンティア マップ (VLFM) を紹介します。これは人間の推論に触発され、新しい環境で目に見えない意味論的オブジェクトに向かってナビゲートするように設計されています。
VLFM は深度観察から占有マップを構築してフロンティアを特定し、RGB 観察と事前トレーニングされた視覚言語モデルを活用して言語に基づいた価値マップを生成します。
次に、VLFM はこのマップを使用して、特定のターゲット オブジェクト カテゴリのインスタンスを見つけるために探索する最も有望なフロンティアを特定します。
Habitat シミュレーター内の Gibson、Habitat-Matterport 3D (HM3D)、および Matterport 3D (MP3D) データセットからフォトリアリスティックな環境で VLFM を評価します。
驚くべきことに、VLFM は、オブジェクト ゴール ナビゲーション タスクのパス長 (SPL) で重み付けされた成功によって測定されるように、3 つのデータセットすべてで最先端の結果を達成しています。
さらに、VLFM のゼロショットの性質により、Boston Dynamics Spot モバイル操作プラットフォームなどの実世界のロボットに容易に導入できることを示します。
VLFM on Spot を導入し、環境に関する事前知識がなくても、現実世界のオフィス ビル内のターゲット オブジェクトに効率的に移動できる機能を実証します。
VLFM の成果は、セマンティック ナビゲーションの分野の進歩における視覚言語モデルの有望な可能性を強調しています。
実際の展開のビデオは、naoki.io/vlfm でご覧いただけます。

要約(オリジナル)

Understanding how humans leverage semantic knowledge to navigate unfamiliar environments and decide where to explore next is pivotal for developing robots capable of human-like search behaviors. We introduce a zero-shot navigation approach, Vision-Language Frontier Maps (VLFM), which is inspired by human reasoning and designed to navigate towards unseen semantic objects in novel environments. VLFM builds occupancy maps from depth observations to identify frontiers, and leverages RGB observations and a pre-trained vision-language model to generate a language-grounded value map. VLFM then uses this map to identify the most promising frontier to explore for finding an instance of a given target object category. We evaluate VLFM in photo-realistic environments from the Gibson, Habitat-Matterport 3D (HM3D), and Matterport 3D (MP3D) datasets within the Habitat simulator. Remarkably, VLFM achieves state-of-the-art results on all three datasets as measured by success weighted by path length (SPL) for the Object Goal Navigation task. Furthermore, we show that VLFM’s zero-shot nature enables it to be readily deployed on real-world robots such as the Boston Dynamics Spot mobile manipulation platform. We deploy VLFM on Spot and demonstrate its capability to efficiently navigate to target objects within an office building in the real world, without any prior knowledge of the environment. The accomplishments of VLFM underscore the promising potential of vision-language models in advancing the field of semantic navigation. Videos of real-world deployment can be viewed at naoki.io/vlfm.

arxiv情報

著者 Naoki Yokoyama,Sehoon Ha,Dhruv Batra,Jiuguang Wang,Bernadette Bucher
発行日 2023-12-06 04:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク