InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding

要約

数十分から数時間にわたる長いビデオを理解することは、ビデオの理解に独特の課題をもたらします。
長い形式のビデオ コンテンツの重要性が高まっているにもかかわらず、既存のベンチマークは主に短いクリップに焦点を当てています。
このギャップに対処するために、非常に長いビデオを理解するための包括的なベンチマークである InfiniBench を導入しました。これは、1) 最長のビデオ継続時間 (平均 76.34 分)。
2) 質問と回答のペアの最大数は 108.2K。
3) 9 つの異なるスキルを調査し、多肢選択式の質問と自由回答式の質問の両方を含む質問の多様性。
4) 人間中心。ビデオソースは映画や毎日のテレビ番組から来ており、映画のネタバレ質問など、批判的思考と包括的な理解を必要とする特定の人間レベルの質問デザインを備えています。
InfiniBench を使用して、商用モデルの Gemini 1.5 Flash やオープンソース モデルを含む既存の大規模マルチモダリティ モデル (LMM) をスキルごとに包括的に評価します。
この評価は、ベンチマークにおける重大な課題を示しています。私たちの結果は、Gemini などの最高の AI モデルが、平均精度 42.72%、平均スコア 5 点中 2.71 で十分なパフォーマンスを発揮するのに苦労していることを示しています。
このベンチマークが LMM コミュニティを刺激して、長いビデオと人間レベルの理解を促進することを願っています。
私たちのベンチマークには https://vision-cair.github.io/InfiniBench/ からアクセスできます。

要約(オリジナル)

Understanding long videos, ranging from tens of minutes to several hours, presents unique challenges in video comprehension. Despite the increasing importance of long-form video content, existing benchmarks primarily focus on shorter clips. To address this gap, we introduce InfiniBench a comprehensive benchmark for very long video understanding which presents 1)The longest video duration, averaging 76.34 minutes; 2) The largest number of question-answer pairs, 108.2K; 3) Diversity in questions that examine nine different skills and include both multiple-choice questions and open-ended questions; 4) Humancentric, as the video sources come from movies and daily TV shows, with specific human-level question designs such as Movie Spoiler Questions that require critical thinking and comprehensive understanding. Using InfiniBench, we comprehensively evaluate existing Large MultiModality Models (LMMs) on each skill, including the commercial model Gemini 1.5 Flash and the open-source models. The evaluation shows significant challenges in our benchmark.Our results show that the best AI models such Gemini struggles to perform well with 42.72% average accuracy and 2.71 out of 5 average score. We hope this benchmark will stimulate the LMMs community towards long video and human-level understanding. Our benchmark can be accessed at https://vision-cair.github.io/InfiniBench/

arxiv情報

著者 Kirolos Ataallah,Chenhui Gou,Eslam Abdelrahman,Khushbu Pahwa,Jian Ding,Mohamed Elhoseiny
発行日 2024-06-28 12:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク