NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation

要約

我々は、2 つの人気のあるデータセット (R2R と RxR) の上に構築された大規模な注釈付き視覚言語ナビゲーション (VLN) コーパスである NAVCON を紹介します。
この論文では、認知的動機と言語的根拠に基づいた 4 つの核となるナビゲーション概念と、ナビゲーション命令でこれらの概念を自然に言語的に実現した大規模なシルバー アノテーションを生成するアルゴリズムを紹介します。
注釈付きの指示を、これらの指示に従って行動するエージェントのビデオ クリップと組み合わせます。
NAVCON には、約 30,000 の命令に対する 236,316 の概念注釈と、命令の実行時にエージェントが見るものを示す 270 万個の位置合わせされたイメージ (約 19,000 の命令から) が含まれています。
私たちの知る限り、これはナビゲーションの概念に関する最初の包括的なリソースです。
NAVCON サンプルに対して人間による評価研究を実施することで、銀の注釈の品質を評価しました。
リソースの品質と有用性をさらに検証するために、目に見えない指示に含まれるナビゲーション概念とその言語的実現を検出するためのモデルをトレーニングしました。
さらに、GPT-4o による少数ショット学習が、NAVCON の大規模なシルバー アノテーションを使用してこのタスクで良好に実行されることを示します。

要約(オリジナル)

We present NAVCON, a large-scale annotated Vision-Language Navigation (VLN) corpus built on top of two popular datasets (R2R and RxR). The paper introduces four core, cognitively motivated and linguistically grounded, navigation concepts and an algorithm for generating large-scale silver annotations of naturally occurring linguistic realizations of these concepts in navigation instructions. We pair the annotated instructions with video clips of an agent acting on these instructions. NAVCON contains 236, 316 concept annotations for approximately 30, 0000 instructions and 2.7 million aligned images (from approximately 19, 000 instructions) showing what the agent sees when executing an instruction. To our knowledge, this is the first comprehensive resource of navigation concepts. We evaluated the quality of the silver annotations by conducting human evaluation studies on NAVCON samples. As further validation of the quality and usefulness of the resource, we trained a model for detecting navigation concepts and their linguistic realizations in unseen instructions. Additionally, we show that few-shot learning with GPT-4o performs well on this task using large-scale silver annotations of NAVCON.

arxiv情報

著者 Karan Wanchoo,Xiaoye Zuo,Hannah Gonzalez,Soham Dan,Georgios Georgakis,Dan Roth,Kostas Daniilidis,Eleni Miltsakaki
発行日 2024-12-17 15:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク