要約
我々は、理解タスクに関する大規模な視覚言語モデルの包括的な評価を容易にするために、新しい VQA データセット BloomVQA を提案します。
多くの場合、理論的根拠のない事実ベースの暗記や単純な推論タスクに焦点を当てている現在のベンチマークとは異なり、幅広い学習評価の古典的なフレームワークであるブルーム分類法に示されているように、さまざまな理解レベルを反映する絵物語に基づいた多肢選択サンプルを収集します。
教育研究に採用されました。
私たちのデータは、自動データ拡張とモデルの一貫性を特徴付ける新しい測定を可能にする新しい階層グラフ表現にマッピングされます。
最近のマルチモーダルモデルの段階評価・信頼性解析を行っております。
低レベルのタスクと比較すると、高度な理解と認知スキルを必要とするタスクではパフォーマンスが低下し、VQA 精度が最大 38.0\% 低下することが観察されました。
以前のモデルと比較して、GPT-4V はすべての理解レベルにわたって精度が向上しており、特に高レベルのタスクでは視覚入力をバイパスする傾向が見られます。
現在のモデルでは、さまざまなシナリオにおいて人間の理解と一致しない一貫性パターンも示されており、理論に基づいた基準に基づいた改善の必要性が示されています。
要約(オリジナル)
We propose a novel VQA dataset, BloomVQA, to facilitate comprehensive evaluation of large vision-language models on comprehension tasks. Unlike current benchmarks that often focus on fact-based memorization and simple reasoning tasks without theoretical grounding, we collect multiple-choice samples based on picture stories that reflect different levels of comprehension, as laid out in Bloom’s Taxonomy, a classic framework for learning assessment widely adopted in education research. Our data maps to a novel hierarchical graph representation which enables automatic data augmentation and novel measures characterizing model consistency. We perform graded evaluation and reliability analysis on recent multi-modal models. In comparison to low-level tasks, we observe decreased performance on tasks requiring advanced comprehension and cognitive skills with up to 38.0\% drop in VQA accuracy. In comparison to earlier models, GPT-4V demonstrates improved accuracy over all comprehension levels and shows a tendency of bypassing visual inputs especially for higher-level tasks. Current models also show consistency patterns misaligned with human comprehension in various scenarios, demonstrating the need for improvement based on theoretically-grounded criteria.
arxiv情報
著者 | Yunye Gong,Robik Shrestha,Jared Claypoole,Michael Cogswell,Arijit Ray,Christopher Kanan,Ajay Divakaran |
発行日 | 2024-06-10 17:39:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google