Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation

要約

視覚と言語ナビゲーション (VLN) は、エージェントが指示を理解し、視覚的な環境で目的地に移動する必要がある難しいタスクです。屋外 VLN における重要な課題の 1 つは、指示のどの部分が完了したかを追跡することです。
この問題を軽減するために、これまでの研究では主に自然言語を視覚入力にグラウンディングすることに焦点を当てていましたが、グラウンディングのプロセスにおけるエージェントの空間位置情報の重要な役割は無視されていました。
この研究では、まず人間のナビゲーションからインスピレーションを得て、屋外 VLN の接地における空間位置特定の実質的な効果を調査します。
現実世界のナビゲーション シナリオでは、人間は通常、目的地までの経路を計画する前に、現在の位置を把握する必要があります。
この観察は、ナビゲーションプロセスにおける空間位置特定の極めて重要な役割を強調しています。
この研究では、屋外 VLN タスクでの行動計画に空間認識を組み込むように設計された、新しいフレームワークである Locating be for Planning (Loc4Plan) を紹介します。
Loc4Plan の背後にある主なアイデアは、対応するガイダンスに基づいて意思決定アクションを計画する前に、空間位置特定を実行することです。ガイダンスは、ブロック認識空間位置特定 (BAL) モジュールと空間認識アクション プランニング (SAP) モジュールで構成されます。
具体的には、エージェントが環境内での自分の空間的位置を認識できるようにするために、エージェントの位置を反映するためにエージェントが次の交差点からどのくらい離れているかを測定する位置予測子を学習することを提案します。これは BAL モジュールによって実現されます。
位置特定プロセスの後、対応するガイダンスを確立し、行動計画の精度を高めるために空間情報を組み込む SAP モジュールを提案します。
Touchdown および map2seq データセットに関する広範な実験により、提案された Loc4Plan が SOTA 手法よりも優れていることが示されました。

要約(オリジナル)

Vision and Language Navigation (VLN) is a challenging task that requires agents to understand instructions and navigate to the destination in a visual environment.One of the key challenges in outdoor VLN is keeping track of which part of the instruction was completed. To alleviate this problem, previous works mainly focus on grounding the natural language to the visual input, but neglecting the crucial role of the agent’s spatial position information in the grounding process. In this work, we first explore the substantial effect of spatial position locating on the grounding of outdoor VLN, drawing inspiration from human navigation. In real-world navigation scenarios, before planning a path to the destination, humans typically need to figure out their current location. This observation underscores the pivotal role of spatial localization in the navigation process. In this work, we introduce a novel framework, Locating be for Planning (Loc4Plan), designed to incorporate spatial perception for action planning in outdoor VLN tasks. The main idea behind Loc4Plan is to perform the spatial localization before planning a decision action based on corresponding guidance, which comprises a block-aware spatial locating (BAL) module and a spatial-aware action planning (SAP) module. Specifically, to help the agent perceive its spatial location in the environment, we propose to learn a position predictor that measures how far the agent is from the next intersection for reflecting its position, which is achieved by the BAL module. After the locating process, we propose the SAP module to incorporate spatial information to ground the corresponding guidance and enhance the precision of action planning. Extensive experiments on the Touchdown and map2seq datasets show that the proposed Loc4Plan outperforms the SOTA methods.

arxiv情報

著者 Huilin Tian,Jingke Meng,Wei-Shi Zheng,Yuan-Ming Li,Junkai Yan,Yunong Zhang
発行日 2024-08-09 14:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク