ALLVB: All-in-One Long Video Understanding Benchmark

要約

画像からビデオの理解まで、マルチモーダルLLMS(MLLM)の機能はますます強力になっています。
ただし、ほとんどの既存のビデオ理解ベンチマークは比較的短いため、MLLMSの長いシーケンスモデリング機能を効果的に評価するには不十分です。
これは、MLLMの能力を徹底的に評価するための包括的で統合された長いビデオ理解ベンチマークの緊急の必要性を強調しています。
この目的のために、AllVB(オールインワンの長いビデオ理解ベンチマーク)を提案します。
ALLVBの主な貢献には、次のものが含まれます。1)9つの主要なビデオ理解タスクを統合します。
これらのタスクはビデオQA形式に変換され、単一のベンチマークがMLLMの9つの異なるビデオ理解機能を評価し、AllVBの汎用性、包括性、挑戦的な性質を強調します。
2)GPT-4Oを使用した完全に自動化された注釈パイプラインが設計されており、ベンチマークのメンテナンスと拡張を容易にする人間の品質管理のみが必要です。
3)16のカテゴリに1,376個のビデオが含まれており、平均してそれぞれ2時間近く、合計252kのQAがあります。
私たちの知る限り、それはビデオの数、平均期間、QAの数の観点から最大の長いビデオ理解ベンチマークです。
AllVBでさまざまな主流MLLMをテストしましたが、結果は、最も先進的な商業モデルでさえも改善の余地があることを示しています。
これは、ベンチマークの挑戦的な性質を反映しており、長いビデオ理解における開発の実質的な可能性を示しています。

要約(オリジナル)

From image to video understanding, the capabilities of Multi-modal LLMs (MLLMs) are increasingly powerful. However, most existing video understanding benchmarks are relatively short, which makes them inadequate for effectively evaluating the long-sequence modeling capabilities of MLLMs. This highlights the urgent need for a comprehensive and integrated long video understanding benchmark to assess the ability of MLLMs thoroughly. To this end, we propose ALLVB (ALL-in-One Long Video Understanding Benchmark). ALLVB’s main contributions include: 1) It integrates 9 major video understanding tasks. These tasks are converted into video QA formats, allowing a single benchmark to evaluate 9 different video understanding capabilities of MLLMs, highlighting the versatility, comprehensiveness, and challenging nature of ALLVB. 2) A fully automated annotation pipeline using GPT-4o is designed, requiring only human quality control, which facilitates the maintenance and expansion of the benchmark. 3) It contains 1,376 videos across 16 categories, averaging nearly 2 hours each, with a total of 252k QAs. To the best of our knowledge, it is the largest long video understanding benchmark in terms of the number of videos, average duration, and number of QAs. We have tested various mainstream MLLMs on ALLVB, and the results indicate that even the most advanced commercial models have significant room for improvement. This reflects the benchmark’s challenging nature and demonstrates the substantial potential for development in long video understanding.

arxiv情報

著者 Xichen Tan,Yuanjing Luo,Yunfan Ye,Fang Liu,Zhiping Cai
発行日 2025-03-10 13:18:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク