Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

要約

AI研究の長期的な目標は、自然言語で人間と通信し、環境を認識し、実際のタスクを実行できるインテリジェントエージェントを構築することです。
Vision-and-Language Navigation(VLN)は、この目標に向けた基本的かつ学際的な研究トピックであり、自然言語処理、コンピュータービジョン、ロボット工学、機械学習のコミュニティからますます注目を集めています。
このホワイトペーパーでは、タスク、評価指標、方法などをカバーする、VLNの新しい分野における現代の研究をレビューします。現在の進捗状況と課題の構造化分析を通じて、現在のVLNの限界と将来の作業の機会を強調します。
このペーパーは、VLN研究コミュニティの完全なリファレンスとして機能します。

要約(オリジナル)

A long-term goal of AI research is to build intelligent agents that can communicate with humans in natural language, perceive the environment, and perform real-world tasks. Vision-and-Language Navigation (VLN) is a fundamental and interdisciplinary research topic towards this goal, and receives increasing attention from natural language processing, computer vision, robotics, and machine learning communities. In this paper, we review contemporary studies in the emerging field of VLN, covering tasks, evaluation metrics, methods, etc. Through structured analysis of current progress and challenges, we highlight the limitations of current VLN and opportunities for future work. This paper serves as a thorough reference for the VLN research community.

arxiv情報

著者 Jing Gu,Eliana Stefani,Qi Wu,Jesse Thomason,Xin Eric Wang
発行日 2022-06-03 23:12:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク