要約
自動運転における視覚的な質問応答のための新しいデータセットおよびベンチマークである LingoQA を紹介します。
データセットには、28,000 の固有の短いビデオ シナリオと 419,000 の注釈が含まれています。
最先端の視覚言語モデルをベンチマークで評価すると、そのパフォーマンスが人間の能力を下回っており、GPT-4V は質問の 59.6% に対して人間の場合は 96.6% 忠実に回答しました。
評価のために、人間の評価に対して 0.95 のスピアマン相関係数を達成する Lingo-Judge と呼ばれる真実性分類器を提案します。これは、METEOR、BLEU、CIDEr、GPT-4 などの既存の技術を上回ります。
私たちはベースラインの視覚言語モデルを確立し、そのパフォーマンスを理解するために広範なアブレーション研究を実施します。
自動運転における視覚言語モデルの評価プラットフォームとしてデータセットとベンチマークをリリースします。
要約(オリジナル)
We introduce LingoQA, a novel dataset and benchmark for visual question answering in autonomous driving. The dataset contains 28K unique short video scenarios, and 419K annotations. Evaluating state-of-the-art vision-language models on our benchmark shows that their performance is below human capabilities, with GPT-4V responding truthfully to 59.6% of the questions compared to 96.6% for humans. For evaluation, we propose a truthfulness classifier, called Lingo-Judge, that achieves a 0.95 Spearman correlation coefficient to human evaluations, surpassing existing techniques like METEOR, BLEU, CIDEr, and GPT-4. We establish a baseline vision-language model and run extensive ablation studies to understand its performance. We release our dataset and benchmark as an evaluation platform for vision-language models in autonomous driving.
arxiv情報
著者 | Ana-Maria Marcu,Long Chen,Jan Hünermann,Alice Karnsund,Benoit Hanotte,Prajwal Chidananda,Saurabh Nair,Vijay Badrinarayanan,Alex Kendall,Jamie Shotton,Elahe Arani,Oleg Sinavski |
発行日 | 2024-09-26 15:30:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google