要約
ビジョン言語モデル (VLM) の迅速な開発には、厳密で信頼性の高い評価が必要です。
ただし、現在のビジュアル質問応答 (VQA) ベンチマークは自由形式の質問に依存していることが多く、自然言語応答のばらつきにより正確な評価が困難になっています。
これに対処するために、これらの自由形式の質問を多肢選択形式に自動的に変換するエージェント フレームワークである AutoConverter を導入します。これにより、コストのかかる質問作成プロセスを削減しながら客観的な評価が可能になります。
私たちの実験では、AutoConverter が正しくて挑戦的な多肢選択式の質問を生成できることが実証されており、VLM はこれらの質問について、人間が作成した質問と比較して一貫して同等かそれより低い精度を示しています。
AutoConverter を使用して、20 の既存の VQA データセットを統一された多肢選択形式に変換して作成されたベンチマークである VMCBench を構築し、合計 9,018 の質問があります。
VMCBench で 33 の最先端の VLM を包括的に評価し、スケーラブルで一貫性があり、再現可能な VLM 評価の新しい標準を設定します。
要約(オリジナル)
The rapid development of vision language models (VLMs) demands rigorous and reliable evaluation. However, current visual question answering (VQA) benchmarks often depend on open-ended questions, making accurate evaluation difficult due to the variability in natural language responses. To address this, we introduce AutoConverter, an agentic framework that automatically converts these open-ended questions into multiple-choice format, enabling objective evaluation while reducing the costly question creation process. Our experiments demonstrate that AutoConverter can generate correct and challenging multiple-choice questions, with VLMs demonstrating consistently similar or lower accuracy on these questions compared to human-created ones. Using AutoConverter, we construct VMCBench, a benchmark created by transforming 20 existing VQA datasets into a unified multiple-choice format, totaling 9,018 questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench, setting a new standard for scalable, consistent, and reproducible VLM evaluation.
arxiv情報
著者 | Yuhui Zhang,Yuchang Su,Yiming Liu,Xiaohan Wang,James Burgess,Elaine Sui,Chenyu Wang,Josiah Aklilu,Alejandro Lozano,Anjiang Wei,Ludwig Schmidt,Serena Yeung-Levy |
発行日 | 2025-01-06 18:57:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google