DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning

要約

視覚と言語のナビゲーション (VLN) では、エージェントが自然言語の指示に従って目に見えない環境をナビゲートする必要があります。
タスクを完了するには、エージェントは、指示、観察、ナビゲーション履歴などのさまざまなナビゲーション モダリティを調整し、統合する必要があります。
既存の研究は主に、この目的を達成するために融合段階でのクロスモーダルな注意に焦点を当てています。
それにもかかわらず、異種のユニエンコーダによって生成されたモダリティ特徴はそれぞれの空間に存在し、クロスモーダル融合および決定の品質の低下につながります。
この問題に対処するために、クロスモーダル対比学習によるデュアルレベル アライメント (DELAN) フレームワークを提案します。
このフレームワークは、融合前にさまざまなナビゲーション関連のモダリティを調整するように設計されており、それによってクロスモーダルのインタラクションとアクションの意思決定が強化されます。
具体的には、融合前のアライメントを、意味的相関関係に従って、指導履歴レベルとランドマーク観察レベルの 2 つのレベルに分割します。
また、二重レベルのアライメントに適応するために二重レベルの命令を再構築します。
融合前アライメントのトレーニング信号は非常に限られているため、異なるモダリティ間のマッチングを強制するために自己教師ありの対照学習戦略が採用されています。
当社のアプローチは既存モデルの大部分とシームレスに統合されており、その結果、R2R、R4R、RxR、CVDN などのさまざまな VLN ベンチマークでのナビゲーション パフォーマンスが向上します。

要約(オリジナル)

Vision-and-Language navigation (VLN) requires an agent to navigate in unseen environment by following natural language instruction. For task completion, the agent needs to align and integrate various navigation modalities, including instruction, observation and navigation history. Existing works primarily concentrate on cross-modal attention at the fusion stage to achieve this objective. Nevertheless, modality features generated by disparate uni-encoders reside in their own spaces, leading to a decline in the quality of cross-modal fusion and decision. To address this problem, we propose a Dual-levEL AligNment (DELAN) framework by cross-modal contrastive learning. This framework is designed to align various navigation-related modalities before fusion, thereby enhancing cross-modal interaction and action decision-making. Specifically, we divide the pre-fusion alignment into dual levels: instruction-history level and landmark-observation level according to their semantic correlations. We also reconstruct a dual-level instruction for adaptation to the dual-level alignment. As the training signals for pre-fusion alignment are extremely limited, self-supervised contrastive learning strategies are employed to enforce the matching between different modalities. Our approach seamlessly integrates with the majority of existing models, resulting in improved navigation performance on various VLN benchmarks, including R2R, R4R, RxR and CVDN.

arxiv情報

著者 Mengfei Du,Binhao Wu,Jiwen Zhang,Zhihao Fan,Zejun Li,Ruipu Luo,Xuanjing Huang,Zhongyu Wei
発行日 2024-04-02 14:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク