MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

要約

マルチモーダル大規模言語モデル (MLLM) の急速な発展に伴い、これらのモデルの理解能力を評価するための多くの診断ベンチマークが最近登場しました。
ただし、ほとんどのベンチマークは主に静止画像タスクの空間理解を評価し、動的なビデオ タスクの時間理解を無視しています。
この問題を軽減するために、包括的なマルチモーダル ビデオ理解ベンチマーク、つまり MVBench を導入します。これは、単一のフレームでは効果的に解決できない 20 の困難なビデオ タスクをカバーします。
具体的には、まず、これらの時間関連タスクを定義するための新しい静的から動的への方法を導入します。
さまざまな静的タスクを動的タスクに変換することで、知覚から認知までの幅広い時間的スキルを必要とするビデオ タスクを体系的に生成できるようになります。
次に、タスク定義に基づいて、公開ビデオの注釈を複数選択の QA に自動的に変換し、各タスクを評価します。
一方で、このような明確なパラダイムにより、手動介入をほとんど行わずに MVBench を効率的に構築できます。
一方で、グラウンドトゥルースのビデオ注釈により評価の公平性が保証され、LLM の偏ったスコアリングが回避されます。
さらに、多様な命令調整データを使用したプログレッシブ マルチモーダル トレーニングによって、堅牢なビデオ MLLM ベースライン、つまり VideoChat2 をさらに開発します。
MVBench での広範な結果から、既存の MLLM は時間的理解において満足のいくものには程遠いのに対し、VideoChat2 は MVBench でこれらの主要モデルを 15% 以上大幅に上回っていることが明らかになりました。
すべてのモデルとデータは https://github.com/OpenGVLab/Ask-Anything で入手できます。

要約(オリジナル)

With the rapid development of Multi-modal Large Language Models (MLLMs), a number of diagnostic benchmarks have recently emerged to evaluate the comprehension capabilities of these models. However, most benchmarks predominantly assess spatial understanding in the static image tasks, while overlooking temporal understanding in the dynamic video tasks. To alleviate this issue, we introduce a comprehensive Multi-modal Video understanding Benchmark, namely MVBench, which covers 20 challenging video tasks that cannot be effectively solved with a single frame. Specifically, we first introduce a novel static-to-dynamic method to define these temporal-related tasks. By transforming various static tasks into dynamic ones, we enable the systematic generation of video tasks that require a broad spectrum of temporal skills, ranging from perception to cognition. Then, guided by the task definition, we automatically convert public video annotations into multiple-choice QA to evaluate each task. On one hand, such a distinct paradigm allows us to build MVBench efficiently, without much manual intervention. On the other hand, it guarantees evaluation fairness with ground-truth video annotations, avoiding the biased scoring of LLMs. Moreover, we further develop a robust video MLLM baseline, i.e., VideoChat2, by progressive multi-modal training with diverse instruction-tuning data. The extensive results on our MVBench reveal that, the existing MLLMs are far from satisfactory in temporal understanding, while our VideoChat2 largely surpasses these leading models by over 15% on MVBench. All models and data are available at https://github.com/OpenGVLab/Ask-Anything.

arxiv情報

著者 Kunchang Li,Yali Wang,Yinan He,Yizhuo Li,Yi Wang,Yi Liu,Zun Wang,Jilan Xu,Guo Chen,Ping Luo,Limin Wang,Yu Qiao
発行日 2023-11-28 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク