要約
この作業では、最先端の大型言語モデル(LLM)とビジョン言語モデル(VLMSを使用する4つのサブモジュールに問題を分解することにより、Vision-Language Navigation(VLN)タスクのモジュラーアプローチを提案します。
)ゼロショット設定で。
自然言語でのナビゲーション指示を考えると、最初にLLMにランドマークと訪問の順序を抽出するように促します。
環境の既知のモデルを仮定すると、最後のランドマークのトップKの場所を取得し、環境のトポロジマップで最も短いパスアルゴリズムを使用して、開始場所から最後のランドマークへの$ K $パス仮説を生成します。
各パス仮説は、一連のパノラマで表されます。
次に、動的プログラミングを使用して、パノラマのシーケンスとVLMから得られたスコアに一致するランドマーク名のシーケンス間のアライメントスコアを計算します。
最後に、パスの忠実度を評価するために最高のアライメントスコアを生成する仮説の間にNDTWメトリックを計算します。
複雑なR2R-Habitat \ Cite {R2R}命令データセットでVLMAPS \ Cite {VlMaps}などのジョイントセマンティックマップを使用する他のアプローチと比較して、優れたパフォーマンスを実証し、ナビゲーションパフォーマンスに対する視覚的接地の効果を詳細に定量化します。
要約(オリジナル)
In this work, we propose a modular approach for the Vision-Language Navigation (VLN) task by decomposing the problem into four sub-modules that use state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs) in a zero-shot setting. Given navigation instruction in natural language, we first prompt LLM to extract the landmarks and the order in which they are visited. Assuming the known model of the environment, we retrieve the top-k locations of the last landmark and generate $k$ path hypotheses from the starting location to the last landmark using the shortest path algorithm on the topological map of the environment. Each path hypothesis is represented by a sequence of panoramas. We then use dynamic programming to compute the alignment score between the sequence of panoramas and the sequence of landmark names, which match scores obtained from VLM. Finally, we compute the nDTW metric between the hypothesis that yields the highest alignment score to evaluate the path fidelity. We demonstrate superior performance compared to other approaches that use joint semantic maps like VLMaps \cite{vlmaps} on the complex R2R-Habitat \cite{r2r} instruction dataset and quantify in detail the effect of visual grounding on navigation performance.
arxiv情報
著者 | Navid Rajabi,Jana Kosecka |
発行日 | 2025-02-11 07:09:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google