TempCompass: Do Video LLMs Really Understand Videos?

要約

最近、ビデオ大規模言語モデル(Video LLM)への関心が高まっている。しかし、既存のベンチマークは、Video LLMの時間認識能力に関する包括的なフィードバックを提供できていない。一方では、ほとんどのベンチマークは、異なる時間的側面(例えば、速度、方向)を区別することができないため、これらの特定の側面に関する微妙な性能を反映することができません。一方、タスクの形式が多様である(例えば、多肢選択式QAのみ)ため、時間認知能力がタスクの種類によってどのように異なるかを理解する妨げとなっている。この2つの問題に動機づけられ、我々は時間的側面とタスク形式の多様性を導入したベンチマークを提案する。高品質なテストデータを収集するために、我々は2つの新しい戦略を考案する。(1)ビデオ収集では、同じ静的コンテンツを共有するが、特定の時間的側面が異なる競合ビデオを構築し、ビデオLLMが単一フレームバイアスや言語プリオアを活用するのを防ぐ。(2)タスク命令を収集するために、まず人間がビデオのメタ情報を注釈し、次にLLMが命令を生成するというパラダイムを提案する。また、Video LLMからの応答を自動的かつ正確に評価するためのLLMベースのアプローチを設計する。TempCompassに基づき、8つの最新(SOTA)ビデオLLMと3つのイメージLLMを包括的に評価し、これらのモデルが著しく時間的知覚能力が低いことを明らかにする。我々のデータはhttps://github.com/llyx97/TempCompass。

要約(オリジナル)

Recently, there is a surge in interest surrounding video large language models (Video LLMs). However, existing benchmarks fail to provide a comprehensive feedback on the temporal perception ability of Video LLMs. On the one hand, most of them are unable to distinguish between different temporal aspects (e.g., speed, direction) and thus cannot reflect the nuanced performance on these specific aspects. On the other hand, they are limited in the diversity of task formats (e.g., only multi-choice QA), which hinders the understanding of how temporal perception performance may vary across different types of tasks. Motivated by these two problems, we propose the \textbf{TempCompass} benchmark, which introduces a diversity of temporal aspects and task formats. To collect high-quality test data, we devise two novel strategies: (1) In video collection, we construct conflicting videos that share the same static content but differ in a specific temporal aspect, which prevents Video LLMs from leveraging single-frame bias or language priors. (2) To collect the task instructions, we propose a paradigm where humans first annotate meta-information for a video and then an LLM generates the instruction. We also design an LLM-based approach to automatically and accurately evaluate the responses from Video LLMs. Based on TempCompass, we comprehensively evaluate 8 state-of-the-art (SOTA) Video LLMs and 3 Image LLMs, and reveal the discerning fact that these models exhibit notably poor temporal perception ability. Our data will be available at https://github.com/llyx97/TempCompass.

arxiv情報

著者 Yuanxin Liu,Shicheng Li,Yi Liu,Yuxiang Wang,Shuhuai Ren,Lei Li,Sishuo Chen,Xu Sun,Lu Hou
発行日 2024-06-03 04:13:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク