Aligning Knowledge Graph with Visual Perception for Object-goal Navigation

要約

オブジェクトとゴールのナビゲーションは、一人称の視覚的観察に基づいてエージェントを特定のオブジェクトに誘導する必要がある難しいタスクです。
エージェントが周囲を理解する能力は、物体発見を成功させる上で重要な役割を果たします。
ただし、既存のナレッジ グラフ ベースのナビゲーターは、シーンのグラフ表現を構築するために離散カテゴリ ワンホット ベクトルと投票カウント戦略に依存することが多く、その結果、視覚的なイメージとの不整合が生じます。
より正確で一貫したシーンの説明を提供し、この不整合の問題に対処するために、オブジェクトと目標のナビゲーションのための Aligning Knowledge Graph with Visual Perception (AKGVP) メソッドを提案します。
技術的には、私たちのアプローチは階層的シーンアーキテクチャの連続モデリングを導入し、視覚言語の事前トレーニングを活用して自然言語の記述を視覚認識と一致させます。
継続的なナレッジ グラフ アーキテクチャとマルチモーダル機能の調整の統合により、ナビゲーターは優れたゼロショット ナビゲーション機能を実現できます。
私たちは AI2-THOR シミュレーターを使用してメソッドを広範囲に評価し、ナビゲーターの有効性と効率を実証するために一連の実験を実施します。
利用可能なコード: https://github.com/nuoxu/AKGVP。

要約(オリジナル)

Object-goal navigation is a challenging task that requires guiding an agent to specific objects based on first-person visual observations. The ability of agent to comprehend its surroundings plays a crucial role in achieving successful object finding. However, existing knowledge-graph-based navigators often rely on discrete categorical one-hot vectors and vote counting strategy to construct graph representation of the scenes, which results in misalignment with visual images. To provide more accurate and coherent scene descriptions and address this misalignment issue, we propose the Aligning Knowledge Graph with Visual Perception (AKGVP) method for object-goal navigation. Technically, our approach introduces continuous modeling of the hierarchical scene architecture and leverages visual-language pre-training to align natural language description with visual perception. The integration of a continuous knowledge graph architecture and multimodal feature alignment empowers the navigator with a remarkable zero-shot navigation capability. We extensively evaluate our method using the AI2-THOR simulator and conduct a series of experiments to demonstrate the effectiveness and efficiency of our navigator. Code available: https://github.com/nuoxu/AKGVP.

arxiv情報

著者 Nuo Xu,Wen Wang,Rong Yang,Mengjie Qin,Zheyuan Lin,Wei Song,Chunlong Zhang,Jason Gu,Chao Li
発行日 2024-04-26 02:16:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク