Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models


Vision-and-Language Navigation (VLN) は近年ますます注目を集めており、その開発を進めるために多くのアプローチが登場しています。
基礎モデルの目覚ましい成果は、VLN 研究の課題と提案された方法を形作ってきました。
この調査では、具体化された計画と推論のための原則に基づいたフレームワークを採用したトップダウンのレビューを提供し、VLN の課題に対処するために基礎モデルを活用する現在の方法と将来の機会を強調します。
私たちは、私たちの徹底的な議論が貴重なリソースと洞察を提供できることを願っています。一方では、進歩のマイルストーンを打ち、この分野での基盤モデルの機会と潜在的な役割を探求し、他方では、VLN から基盤までのさまざまな課題と解決策を整理することができます。


Vision-and-Language Navigation (VLN) has gained increasing attention over recent years and many approaches have emerged to advance their development. The remarkable achievements of foundation models have shaped the challenges and proposed methods for VLN research. In this survey, we provide a top-down review that adopts a principled framework for embodied planning and reasoning, and emphasizes the current methods and future opportunities leveraging foundation models to address VLN challenges. We hope our in-depth discussions could provide valuable resources and insights: on one hand, to milestone the progress and explore opportunities and potential roles for foundation models in this field, and on the other, to organize different challenges and solutions in VLN to foundation model researchers.


著者 Yue Zhang,Ziqiao Ma,Jialu Li,Yanyuan Qiao,Zun Wang,Joyce Chai,Qi Wu,Mohit Bansal,Parisa Kordjamshidi
発行日 2024-07-09 16:53:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV パーマリンク