Improving Vision-and-Language Navigation by Generating Future-View Image Semantics

要約

タイトル:未来視界画像セマンティクスの生成によるビジョン・アンド・ランゲージ・ナビゲーションの改善
要約:

– ビジョン・アンド・ランゲージ・ナビゲーション(VLN)は、自然言語指示に基づいて環境内をナビゲーションすることを要求するタスクである。
– この論文では、エージェントがナビゲーション中に潜在的な未来視界を生成することが有益かどうかを探求することを目的としている。
– 人間は、自然言語指示と周囲の視界に基づいて、将来の環境がどのように見えるかについて期待を持っており、これはナビゲーションを正確に支援する。
– そのため、エージェントに未来のナビゲーションビューのセマンティクスを生成する能力を付与するために、3つのプロキシタスクを提案することを提案する。
– これらの3つの目的は、パノラマの欠落したビューを予測する(MPM)、完全な軌跡の欠落したステップを予測する(MTM)、および完全な指示とナビゲーション履歴に基づいて次のビューを生成する(APIG)ことをモデルに教えることである。
– その後、エージェントをVLNタスクに再調整し、エージェントが生成したビューセマンティクスと次のステップのグラウンドトゥルースビューセマンティクスの違いを最小化する補助的な損失でエージェントを調整する。
– 実験的に、VLN-SIGは、Room-to-RoomデータセットとCVDNデータセットの両方で新しい最先端を達成している。
– さらに、未来のビューに欠落したパッチを qualitatively識別する能力を学習することで、エージェントの予測したアクションに対するより解釈可能性をもたらすことを示す。
– 最後に、未来のビューのセマンティクスを予測することを学習することで、エージェントは長いパスでの性能向上も実証する。

要約(オリジナル)

Vision-and-Language Navigation (VLN) is the task that requires an agent to navigate through the environment based on natural language instructions. At each step, the agent takes the next action by selecting from a set of navigable locations. In this paper, we aim to take one step further and explore whether the agent can benefit from generating the potential future view during navigation. Intuitively, humans will have an expectation of how the future environment will look like, based on the natural language instructions and surrounding views, which will aid correct navigation. Hence, to equip the agent with this ability to generate the semantics of future navigation views, we first propose three proxy tasks during the agent’s in-domain pre-training: Masked Panorama Modeling (MPM), Masked Trajectory Modeling (MTM), and Action Prediction with Image Generation (APIG). These three objectives teach the model to predict missing views in a panorama (MPM), predict missing steps in the full trajectory (MTM), and generate the next view based on the full instruction and navigation history (APIG), respectively. We then fine-tune the agent on the VLN task with an auxiliary loss that minimizes the difference between the view semantics generated by the agent and the ground truth view semantics of the next step. Empirically, our VLN-SIG achieves the new state-of-the-art on both the Room-to-Room dataset and the CVDN dataset. We further show that our agent learns to fill in missing patches in future views qualitatively, which brings more interpretability over agents’ predicted actions. Lastly, we demonstrate that learning to predict future view semantics also enables the agent to have better performance on longer paths.

arxiv情報

著者 Jialu Li,Mohit Bansal
発行日 2023-04-11 00:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク