要約
Vision-and-Language Navigation (VLN)タスクでは、エージェントは言語の指示に基づいて環境内を移動する必要がある。本論文では、このタスクにおける2つの重要な課題、すなわち、多言語指示を利用して指示経路の接地性を向上させることと、学習中に見たことのない新しい環境をナビゲートすることを解決することを目的とする。これらの課題を解決するために、我々はCLEAR: Cross-Lingual and Environment-Agnostic Representationsを提案する。まず、我々のエージェントはRoom-Across-Roomデータセットに含まれる3つの言語(英語、ヒンディー語、テルグ語)に対して、視覚的に整列した言語横断的な表現を共有し、学習する。言語表現の学習は、視覚情報によって整列されたテキストペアによって導かれる。第二に、我々のエージェントは、異なる環境からの意味的に整列した画像ペア(オブジェクトマッチングの制約あり)間の類似度を最大化することにより、環境にとらわれない視覚表現を学習する。この環境に依存しない視覚表現により、低レベルの視覚情報によって引き起こされる環境バイアスを緩和することができる。経験的に、Room-Across-Roomデータセットにおいて、我々の多言語エージェントは、言語表現と環境にとらわれない視覚表現を用いて未知の環境に汎化する際に、強いベースラインモデルよりも全てのメトリクスで大きな改善を得られることを示す。さらに、学習した言語表現と視覚表現をRoom-to-RoomタスクやCooperative Vision-and-Dialogue Navigationタスクにうまく移植できることを示し、詳細な定性的・定量的汎化解析と接地解析を提示する。我々のコードは https://github.com/jialuli-luka/CLEAR で公開されている。
要約(オリジナル)
Vision-and-Language Navigation (VLN) tasks require an agent to navigate through the environment based on language instructions. In this paper, we aim to solve two key challenges in this task: utilizing multilingual instructions for improved instruction-path grounding and navigating through new environments that are unseen during training. To address these challenges, we propose CLEAR: Cross-Lingual and Environment-Agnostic Representations. First, our agent learns a shared and visually-aligned cross-lingual language representation for the three languages (English, Hindi and Telugu) in the Room-Across-Room dataset. Our language representation learning is guided by text pairs that are aligned by visual information. Second, our agent learns an environment-agnostic visual representation by maximizing the similarity between semantically-aligned image pairs (with constraints on object-matching) from different environments. Our environment agnostic visual representation can mitigate the environment bias induced by low-level visual information. Empirically, on the Room-Across-Room dataset, we show that our multilingual agent gets large improvements in all metrics over the strong baseline model when generalizing to unseen environments with the cross-lingual language representation and the environment-agnostic visual representation. Furthermore, we show that our learned language and visual representations can be successfully transferred to the Room-to-Room and Cooperative Vision-and-Dialogue Navigation task, and present detailed qualitative and quantitative generalization and grounding analysis. Our code is available at https://github.com/jialuli-luka/CLEAR
arxiv情報
著者 | Jialu Li,Hao Tan,Mohit Bansal |
発行日 | 2022-07-05 17:38:59+00:00 |
arxivサイト | arxiv_id(pdf) |