Do Visual Imaginations Improve Vision-and-Language Navigation Agents?

要約

Vision-and-Language Navigation(VLN)エージェントは、自然言語の指示を使用して、目に見えない環境をナビゲートすることを任されています。
この作業では、指示によって暗示されるサブゴールの視覚的表現がナビゲーションキューとして機能し、ナビゲーションパフォーマンスの向上につながるかどうかを研究します。
これらの視覚表現または想像力を合成するために、セグメント化された命令に含まれるランドマーク参照にテキストから画像間拡散モデルを活用します。
これらの想像力は、ランドマークキューとして機能するための追加のモダリティとしてVLNエージェントに提供され、これらを対応する参照式と明示的に関連付けるために補助損失が追加されます。
私たちの調査結果は、エージェント間の逆パス長(SPL)によってスケーリングされた成功の成功率(SR)の増加(SR)の増加を明らかにしています。
これらの結果は、提案されたアプローチが言語の指示だけに依存するのと比較して視覚的理解を強化することを示唆しています。
私たちの作業のコードとデータは、https://www.akhilperincherry.com/vln-imagine-website/にあります。

要約(オリジナル)

Vision-and-Language Navigation (VLN) agents are tasked with navigating an unseen environment using natural language instructions. In this work, we study if visual representations of sub-goals implied by the instructions can serve as navigational cues and lead to increased navigation performance. To synthesize these visual representations or imaginations, we leverage a text-to-image diffusion model on landmark references contained in segmented instructions. These imaginations are provided to VLN agents as an added modality to act as landmark cues and an auxiliary loss is added to explicitly encourage relating these with their corresponding referring expressions. Our findings reveal an increase in success rate (SR) of around 1 point and up to 0.5 points in success scaled by inverse path length (SPL) across agents. These results suggest that the proposed approach reinforces visual understanding compared to relying on language instructions alone. Code and data for our work can be found at https://www.akhilperincherry.com/VLN-Imagine-website/.

arxiv情報

著者 Akhil Perincherry,Jacob Krantz,Stefan Lee
発行日 2025-03-20 17:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク