AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering

要約

私たちは、自由形式のビデオ質問応答で大規模なビジョン言語モデルを包括的に評価するための、斬新で挑戦的なベンチマークである AutoEval-Video を提案します。
AutoEval-Video の包括性は、次の 2 つの側面で実証されています。 1) AutoEval-Video は、9 つ​​のスキル次元にわたる自由形式のビデオ質問を構築し、知覚、理解、および生成の能力に対応します。
2) AutoEval-Video には、40 以上の異なるテーマをカバーする新しく収集されたビデオが含まれています。
自由回答形式の質問に対する回答を効率的に評価するために、LLM ベースの評価アプローチを採用していますが、単に参照回答を提供するのではなく、単一のインスタンス (ビデオと質問のペア) ごとに独自の評価ルールに注釈を付けています。
これらのルールの堅牢性を最大限に高めるために、新しい敵対的アノテーション メカニズムを開発しました。
インスタンス固有のルールをプロンプトとして使用することにより、自動評価器としての GPT-4 は、人間の評価器の 94.9% ~ 97.5% の精度に匹敵する、約 97.0% の安定した評価精度を達成できます。
さらに、AutoEval-Video 上の 8 つの大規模なビジョン言語モデルのパフォーマンスを評価します。
中でもGPT-4V(ision)は他のモデルを大きく上回り、精度32.2%を達成しました。
ただし、人間の精度 72.8% と比較すると、まだ改善の余地がかなりあります。
広範なケーススタディを実施することにより、時間的および動的理解の制限、および過度に一般的な応答など、GPT-4V のいくつかの欠点を明らかにしました。
コードは https://github.com/Xiuyuan-Chen/AutoEval-Video で入手できます。

要約(オリジナル)

We propose a novel and challenging benchmark, AutoEval-Video, to comprehensively evaluate large vision-language models in open-ended video question answering. The comprehensiveness of AutoEval-Video is demonstrated in two aspects: 1) AutoEval-Video constructs open-ended video-questions across 9 skill dimensions, addressing capabilities of perception, comprehension, and generation. 2) AutoEval-Video contains newly collected videos that cover over 40 distinct themes. To efficiently evaluate responses to the open-ended questions, we employ an LLM-based evaluation approach, but instead of merely providing a reference answer, we annotate unique evaluation rules for every single instance (video-question pair). To maximize the robustness of these rules, we develop a novel adversarial annotation mechanism. By using instance-specific rules as prompt, GPT-4, as an automatic evaluator, can achieve a stable evaluation accuracy of around 97.0%, comparable to the 94.9% – 97.5% accuracy of a human evaluator. Furthermore, we assess the performance of eight large vision-language models on AutoEval-Video. Among them, GPT-4V(ision) significantly outperforms other models, achieving an accuracy of 32.2%. However, there is still substantial room for improvement compared to human accuracy of 72.8%. By conducting an extensive case study, we uncover several drawbacks of GPT-4V, such as limited temporal and dynamic comprehension, and overly general responses. Code is available at https://github.com/Xiuyuan-Chen/AutoEval-Video.

arxiv情報

著者 Xiuyuan Chen,Yuan Lin,Yuchen Zhang,Weiran Huang
発行日 2024-07-15 16:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク