要約
ビジョン言語モデル(VLMS)の迅速な発展には、厳密で信頼できる評価が必要です。
ただし、現在の視覚的な質問応答(VQA)ベンチマークは、多くの場合、自然言語応答の変動性のために正確な評価を困難にしていることがよくあります。
これに対処するために、これらのオープンエンドの質問を自動的に複数選択形式に変換するエージェントフレームワークであるAutoconverterを紹介し、客観的な評価を可能にしながら、費用のかかる複数選択の質問作成プロセスを減らします。
私たちの実験は、自動コンファーターが正確で挑戦的な複数選択の質問を生成できることを示しており、VLMは人間が作成した質問と比較して、これらの質問について一貫して同様または低い精度を示しています。
AutoConverterを使用して、20の既存のVQAデータセットを合計9,018の質問に変換することによって作成されたベンチマークであるVMCBenchを構築します。
VMCBenchで33の最先端のVLMを包括的に評価し、スケーラブルで一貫性のある、再現可能なVLM評価の新しい標準を設定します。
要約(オリジナル)
The rapid development of vision language models (VLMs) demands rigorous and reliable evaluation. However, current visual question answering (VQA) benchmarks often depend on open-ended questions, making accurate evaluation difficult due to the variability in natural language responses. To address this, we introduce AutoConverter, an agentic framework that automatically converts these open-ended questions into multiple-choice format, enabling objective evaluation while reducing the costly multiple-choice question creation process. Our experiments demonstrate that AutoConverter can generate correct and challenging multiple-choice questions, with VLMs demonstrating consistently similar or lower accuracy on these questions compared to human-created ones. Using AutoConverter, we construct VMCBench, a benchmark created by transforming 20 existing VQA datasets into a unified multiple-choice format, totaling 9,018 questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench, setting a new standard for scalable, consistent, and reproducible VLM evaluation.
arxiv情報
著者 | Yuhui Zhang,Yuchang Su,Yiming Liu,Xiaohan Wang,James Burgess,Elaine Sui,Chenyu Wang,Josiah Aklilu,Alejandro Lozano,Anjiang Wei,Ludwig Schmidt,Serena Yeung-Levy |
発行日 | 2025-04-09 17:25:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google