要約
人間の指示に従い、不慣れな環境で指定されたターゲットを探索および検索することは、移動サービス ロボットにとって重要なスキルです。
オブジェクト目標ナビゲーションに関するこれまでの研究のほとんどは、通常、ターゲットとして単一の入力モダリティに焦点を当てており、詳細な属性と空間関係を含む言語記述の考慮が制限される可能性があります。
この制限に対処するために、オブジェクト名と記述言語ターゲットを効果的に処理できる視覚ターゲット ナビゲーションのための新しいゼロショット フレームワークである VLN-Game を提案します。
より正確に言うと、私たちのアプローチは、事前にトレーニングされた視覚言語の特徴と物理環境の 3D 再構成を統合することによって、3D オブジェクト中心の空間マップを構築します。
次に、このフレームワークは、潜在的なターゲット候補を探索するために探索する最も有望な領域を特定します。
ゲーム理論の視覚言語モデルを使用して、どのターゲットが特定の言語記述に最もよく一致するかを決定します。
Habitat-Matterport 3D (HM3D) データセットで行われた実験は、提案されたフレームワークがオブジェクト ゴール ナビゲーションと言語ベースのナビゲーション タスクの両方で最先端のパフォーマンスを達成することを示しています。
さらに、VLN-Game を現実世界のロボットに簡単に展開できることを示します。
VLN-Game の成功は、ロボット システムの意思決定機能を向上させるために、コンパクトなビジョン言語モデルを備えたゲーム理論的手法を使用することの有望な可能性を浮き彫りにしています。
補足のビデオとコードには、リンク https://sites.google.com/view/vln-game からアクセスできます。
要約(オリジナル)
Following human instructions to explore and search for a specified target in an unfamiliar environment is a crucial skill for mobile service robots. Most of the previous works on object goal navigation have typically focused on a single input modality as the target, which may lead to limited consideration of language descriptions containing detailed attributes and spatial relationships. To address this limitation, we propose VLN-Game, a novel zero-shot framework for visual target navigation that can process object names and descriptive language targets effectively. To be more precise, our approach constructs a 3D object-centric spatial map by integrating pre-trained visual-language features with a 3D reconstruction of the physical environment. Then, the framework identifies the most promising areas to explore in search of potential target candidates. A game-theoretic vision language model is employed to determine which target best matches the given language description. Experiments conducted on the Habitat-Matterport 3D (HM3D) dataset demonstrate that the proposed framework achieves state-of-the-art performance in both object goal navigation and language-based navigation tasks. Moreover, we show that VLN-Game can be easily deployed on real-world robots. The success of VLN-Game highlights the promising potential of using game-theoretic methods with compact vision-language models to advance decision-making capabilities in robotic systems. The supplementary video and code can be accessed via the following link: https://sites.google.com/view/vln-game.
arxiv情報
著者 | Bangguo Yu,Yuzhen Liu,Lei Han,Hamidreza Kasaei,Tingguang Li,Ming Cao |
発行日 | 2024-11-18 14:30:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google