A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning

要約

近年のVision-and-Language Navigation (VLN) の研究では、人間の指示に従う知的エージェントやロボットを実現するためのステップとして、フォトリアリスティックな環境において自然言語によるナビゲーション指示を実行するRLエージェントを訓練しています。しかし、人間の指示データが乏しく、訓練環境の多様性も限られているため、これらのエージェントは、複雑な言語の接地と空間言語の理解に苦労しています。ウェブ上の大規模なテキストや画像-テキストデータセットに対する事前学習が広く検討されているが、その改善には限界がある。このようなインドメイン命令データの不足に対処するため、我々は合成命令による大規模な補強を研究している。我々は、500以上の屋内環境を360度パノラマで撮影し、これらのパノラマを通してナビゲーション軌道を構築し、高品質の多言語ナビゲーション命令生成器であるMarky (Wang et al., 2022)を用いて各軌道に対して視覚的根拠に基づく命令を生成する。さらに軌道の可変性を高めるため、画像間GANを用いて新規視点からの画像観測も合成する。その結果、420万組の指示-軌跡のデータセットは、既存の人間が注釈を付けたデータセットよりも2桁大きく、より多様な環境と視点を含んでいる。この規模のデータを効率的に活用するために、我々は模倣学習を用いた変換エージェントを7億ステップ以上の経験値で学習させる。その結果、Room-across-Roomデータセットにおいて、我々のアプローチは既存の全てのRLエージェントを凌駕し、最先端のNDTWを見た環境では71.1から79.1へ、見ていないテスト環境では64.6から66.8へと向上させることに成功した。本研究は、大規模模倣学習と合成命令生成能力の開発に重点を置いた、命令追従型エージェントの改良への新たな道筋を示すものである。

要約(オリジナル)

Recent studies in Vision-and-Language Navigation (VLN) train RL agents to execute natural-language navigation instructions in photorealistic environments, as a step towards intelligent agents or robots that can follow human instructions. However, given the scarcity of human instruction data and limited diversity in the training environments, these agents still struggle with complex language grounding and spatial language understanding. Pre-training on large text and image-text datasets from the web has been extensively explored but the improvements are limited. To address the scarcity of in-domain instruction data, we investigate large-scale augmentation with synthetic instructions. We take 500+ indoor environments captured in densely-sampled 360 deg panoramas, construct navigation trajectories through these panoramas, and generate a visually-grounded instruction for each trajectory using Marky (Wang et al., 2022), a high-quality multilingual navigation instruction generator. To further increase the variability of the trajectories, we also synthesize image observations from novel viewpoints using an image-to-image GAN. The resulting dataset of 4.2M instruction-trajectory pairs is two orders of magnitude larger than existing human-annotated datasets, and contains a wider variety of environments and viewpoints. To efficiently leverage data at this scale, we train a transformer agent with imitation learning for over 700M steps of experience. On the challenging Room-across-Room dataset, our approach outperforms all existing RL agents, improving the state-of-the-art NDTW from 71.1 to 79.1 in seen environments, and from 64.6 to 66.8 in unseen test environments. Our work points to a new path to improving instruction-following agents, emphasizing large-scale imitation learning and the development of synthetic instruction generation capabilities.

arxiv情報

著者 Aishwarya Kamath,Peter Anderson,Su Wang,Jing Yu Koh,Alexander Ku,Austin Waters,Yinfei Yang,Jason Baldridge,Zarana Parekh
発行日 2022-10-06 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO パーマリンク