OVExp: Open Vocabulary Exploration for Object-Oriented Navigation

要約

オブジェクト指向の具体化されたナビゲーションは、カテゴリによって定義されたり、画像に表示されたりした特定のオブジェクトを見つけることを目的としています。
既存の方法では、広範なトレーニング データがなければ、語彙目標を一般化するのに苦労することがよくあります。
視覚言語モデル (VLM) の最近の進歩は、オブジェクト認識を事前定義されたカテゴリを超えて拡張することで有望なソリューションを提供しますが、オープンな語彙設定では効率的な目標指向の探索がより困難になります。
Open-Vocabulary Exploration のために VLM を統合した学習ベースのフレームワークである OVExp を紹介します。
OVExp は、VLM を使用して観測をエンコードし、目標条件付き探索のためにトップダウン マップに観測を投影することによってシーン表現を構築します。
ゴールは同じ VLM 特徴空間でエンコードされ、軽量のトランスフォーマー ベースのデコーダーが、多彩な表現能力を維持しながらターゲットの位置を予測します。
高密度ピクセルの埋め込みとトレーニング用の完全な 3D シーン再構成を融合する非現実性に対処するために、低コストのセマンティック カテゴリを使用してマップを構築し、テキスト エンコーダーを介してマップを CLIP の埋め込み空間に変換することを提案します。
OVExp のシンプルだが効果的な設計により、計算コストが大幅に削減され、さまざまなナビゲーション設定に対する強力な一般化機能が実証されます。
確立されたベンチマークの実験では、OVExp が以前のゼロショット手法を上回っており、多様なシーンに一般化でき、さまざまな目標モダリティを処理できることが示されています。

要約(オリジナル)

Object-oriented embodied navigation aims to locate specific objects, defined by category or depicted in images. Existing methods often struggle to generalize to open vocabulary goals without extensive training data. While recent advances in Vision-Language Models (VLMs) offer a promising solution by extending object recognition beyond predefined categories, efficient goal-oriented exploration becomes more challenging in an open vocabulary setting. We introduce OVExp, a learning-based framework that integrates VLMs for Open-Vocabulary Exploration. OVExp constructs scene representations by encoding observations with VLMs and projecting them onto top-down maps for goal-conditioned exploration. Goals are encoded in the same VLM feature space, and a lightweight transformer-based decoder predicts target locations while maintaining versatile representation abilities. To address the impracticality of fusing dense pixel embeddings with full 3D scene reconstruction for training, we propose constructing maps using low-cost semantic categories and transforming them into CLIP’s embedding space via the text encoder. The simple but effective design of OVExp significantly reduces computational costs and demonstrates strong generalization abilities to various navigation settings. Experiments on established benchmarks show OVExp outperforms previous zero-shot methods, can generalize to diverse scenes, and handle different goal modalities.

arxiv情報

著者 Meng Wei,Tai Wang,Yilun Chen,Hanqing Wang,Jiangmiao Pang,Xihui Liu
発行日 2024-07-12 06:07:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク