Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation

要約

視覚と自然言語のナビゲーション(VLN)は、エージェントが言語の指示に従って目標位置にナビゲートする必要があるタスクです。これは、移動中の環境との継続的な相互作用に依存します。
最近のTransformerベースのVLNメソッドは、マルチモーダルクロスアテンションメカニズムを介した視覚的観察と言語指導の間の直接接続の恩恵を受けて大きな進歩を遂げました。
ただし、これらのメソッドは通常、LSTMデコーダーを使用するか、手動で設計された非表示状態を使用して反復トランスフォーマーを構築することにより、時間コンテキストを固定長ベクトルとして表します。
単一の固定長ベクトルでは長期の時間的コンテキストをキャプチャするには不十分な場合が多いことを考慮して、このペーパーでは、時間的コンテキストを明示的にモデル化することにより、視覚的に根拠のある自然言語ナビゲーション用の可変長メモリを備えたマルチモーダルトランスフォーマー(MTVM)を紹介します。
具体的には、MTVMを使用すると、エージェントは以前のアクティベーションをメモリバンクに直接保存することで、ナビゲーションの軌跡を追跡できます。
パフォーマンスをさらに向上させるために、ランダムにマスクされた命令を使用した時間的コンテキストのより良い共同表現を学習するのに役立つ、メモリを意識した一貫性の喪失を提案します。
人気のあるR2RおよびCVDNデータセットでMTVMを評価し、モデルはR2Rの見えない検証とテストセットの成功率をそれぞれ2%向上させ、CVDNテストセットの目標プロセスを1.6m削減します。

要約(オリジナル)

Vision-and-Language Navigation (VLN) is a task that an agent is required to follow a language instruction to navigate to the goal position, which relies on the ongoing interactions with the environment during moving. Recent Transformer-based VLN methods have made great progress benefiting from the direct connections between visual observations and the language instruction via the multimodal cross-attention mechanism. However, these methods usually represent temporal context as a fixed-length vector by using an LSTM decoder or using manually designed hidden states to build a recurrent Transformer. Considering a single fixed-length vector is often insufficient to capture long-term temporal context, in this paper, we introduce Multimodal Transformer with Variable-length Memory (MTVM) for visually-grounded natural language navigation by modelling the temporal context explicitly. Specifically, MTVM enables the agent to keep track of the navigation trajectory by directly storing previous activations in a memory bank. To further boost the performance, we propose a memory-aware consistency loss to help learn a better joint representation of temporal context with random masked instructions. We evaluate MTVM on popular R2R and CVDN datasets, and our model improves Success Rate on R2R unseen validation and test set by 2% each, and reduce Goal Process by 1.6m on CVDN test set.

arxiv情報

著者 Chuang Lin,Yi Jiang,Jianfei Cai,Lizhen Qu,Gholamreza Haffari,Zehuan Yuan
発行日 2022-07-18 14:11:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク