要約
Visual Question Answering (VQA) は自動運転において最も重要なタスクの 1 つであり、正確な認識と複雑な状況評価が必要です。
しかし、正確な言語生成と運転シーンからのシーン認識を保証する QA 形式でアノテーションが付けられたデータセットはまだ確立されていません。
この研究では、QA をマークアップ内に囲む新しいデータセット アノテーション技術である Markup-QA を紹介します。
このアプローチにより、文生成と VQA におけるモデルの機能の同時評価が容易になります。
さらに、このアノテーション手法を使用して、NuScenes-MQA データセットを設計しました。
このデータセットは、記述機能と正確な QA の両方に重点を置くことで、特に自動運転タスク向けのビジョン言語モデルの開発を支援します。
データセットは https://github.com/turingmotors/NuScenes-MQA で入手できます。
要約(オリジナル)
Visual Question Answering (VQA) is one of the most important tasks in autonomous driving, which requires accurate recognition and complex situation evaluations. However, datasets annotated in a QA format, which guarantees precise language generation and scene recognition from driving scenes, have not been established yet. In this work, we introduce Markup-QA, a novel dataset annotation technique in which QAs are enclosed within markups. This approach facilitates the simultaneous evaluation of a model’s capabilities in sentence generation and VQA. Moreover, using this annotation methodology, we designed the NuScenes-MQA dataset. This dataset empowers the development of vision language models, especially for autonomous driving tasks, by focusing on both descriptive capabilities and precise QA. The dataset is available at https://github.com/turingmotors/NuScenes-MQA.
arxiv情報
| 著者 | Yuichi Inoue,Yuki Yada,Kotaro Tanahashi,Yu Yamaguchi |
| 発行日 | 2023-12-11 12:58:54+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google