Masked Path Modeling for Vision-and-Language Navigation

要約

視覚と言語のナビゲーション (VLN) エージェントは、自然言語の指示に従って現実世界の環境を移動できるように訓練されています。
VLN の主な課題は、トレーニング データの利用可能性が限られていることです。これにより、モデルの効果的な一般化が妨げられます。
これまでのアプローチでは、トレーニング中に追加の監視を導入することでこの問題に対処しようとしていましたが、多くの場合、スケーラビリティを制限する高価な人間による注釈付きデータが必要でした。
このペーパーでは、下流のナビゲーション タスクのために自己収集したデータを使用してエージェントを事前トレーニングする、マスクされたパス モデリング (MPM) 目標を紹介します。
私たちが提案する方法では、エージェントが特定の目標を持たずにナビゲーション環境を積極的に探索し、通過した経路を収集できるようにします。
次に、この収集されたデータに基づいてエージェントをトレーニングし、ランダムにマスクされたサブパスを指定して元のパスを再構築します。
このようにして、エージェントは条件付きアクションの生成を学習しながら、多様かつ大量のデータを積極的に蓄積できます。
私たちの手法の有効性を評価するために、さまざまな VLN データセットで実験を実施し、さまざまなレベルの命令の複雑さにわたる MPM の多用途性を実証します。
この結果では、成功率が大幅に向上しており、ルーム間、ルーム間、ルーム間での val-unseen 分割で 1.32\%、1.05\%、1.19\% の向上が見られました。
それぞれデータセット。
さらに、テスト前にエージェントが目に見えない環境を探索できる場合に、さらなる改善の可能性を強調する分析を実施します。

要約(オリジナル)

Vision-and-language navigation (VLN) agents are trained to navigate in real-world environments by following natural language instructions. A major challenge in VLN is the limited availability of training data, which hinders the models’ ability to generalize effectively. Previous approaches have attempted to address this issue by introducing additional supervision during training, often requiring costly human-annotated data that restricts scalability. In this paper, we introduce a masked path modeling (MPM) objective, which pretrains an agent using self-collected data for downstream navigation tasks. Our proposed method involves allowing the agent to actively explore navigation environments without a specific goal and collect the paths it traverses. Subsequently, we train the agent on this collected data to reconstruct the original path given a randomly masked subpath. This way, the agent can actively accumulate a diverse and substantial amount of data while learning conditional action generation. To evaluate the effectiveness of our technique, we conduct experiments on various VLN datasets and demonstrate the versatility of MPM across different levels of instruction complexity. Our results exhibit significant improvements in success rates, with enhancements of 1.32\%, 1.05\%, and 1.19\% on the val-unseen split of the Room-to-Room, Room-for-Room, and Room-across-Room datasets, respectively. Furthermore, we conduct an analysis that highlights the potential for additional improvements when the agent is allowed to explore unseen environments prior to testing.

arxiv情報

著者 Zi-Yi Dou,Feng Gao,Nanyun Peng
発行日 2023-05-23 17:20:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク