Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs

要約

ビデオの理解は、マルチモーダル大規模言語モデル (MLLM) にとって重要な次のステップです。
ビデオ理解能力の特定の側面を調査するには、既存のビデオ ベンチマークでは通常、ターゲット能力に基づいて慎重にビデオを選択する必要があり、また、特定のビデオ コンテンツに一致するクエリと応答のペアに手間のかかる注釈を付ける必要があります。
このプロセスは困難であり、多くのリソースを消費します。
本稿では、合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案します。
VideoNIAH は、元のビデオに無関係な画像/テキストの「ニードル」を挿入することで、テスト ビデオ コンテンツをクエリ応答から切り離します。
これらの針のみから注釈を生成し、ビデオ ソースの多様性とさまざまなクエリ応答を保証します。
さらに、VideoNIAH は複数の針を挿入することにより、モデルの時間的理解能力を厳密に評価します。
VideoNIAH を利用して、検索、順序付け、カウントなどのタスクを含むビデオ ベンチマーク VNBench をコンパイルしました。
VNBench は、ビデオ モデルの詳細な理解能力と時空間モデリング能力を効率的に評価できると同時に、ロング コンテキストの評価もサポートします。
さらに、オープンソースと独自の両方の最近のビデオ中心のマルチモーダル大規模言語モデル (MLLM) を評価し、包括的な分析を提供しました。
独自のモデルにはオープンソース モデルに比べて大きな利点があるものの、既存のすべてのビデオ モデルは依然として長距離依存タスクではパフォーマンスが低いことがわかりました。
VideoNIAH は、シンプルでありながら拡張性の高いベンチマーク構築フレームワークであり、将来のビデオ ベンチマーク作業にインスピレーションを与えると考えています。
コードとデータは https://github.com/joez17/VideoNIAH で入手できます。

要約(オリジナル)

Video understanding is a crucial next step for multimodal large language models (MLLMs). To probe specific aspects of video understanding ability, existing video benchmarks typically require careful video selection based on the target capability, along with laborious annotation of query-response pairs to match the specific video content. This process is both challenging and resource-intensive. In this paper, we propose VideoNIAH (Video Needle In A Haystack), a benchmark construction framework through synthetic video generation. VideoNIAH decouples test video content from their query-responses by inserting unrelated image/text ‘needles’ into original videos. It generates annotations solely from these needles, ensuring diversity in video sources and a variety of query-responses. Additionally, by inserting multiple needles, VideoNIAH rigorously evaluates the temporal understanding capabilities of models. We utilized VideoNIAH to compile a video benchmark VNBench, including tasks such as retrieval, ordering, and counting. VNBench can efficiently evaluate the fine-grained understanding ability and spatio-temporal modeling ability of a video model, while also supporting the long-context evaluation. Additionally, we evaluated recent video-centric multimodal large language models (MLLMs), both open-source and proprietary, providing a comprehensive analysis. We found that although proprietary models have significant advantages over open-source models, all existing video models still perform poorly on long-distance dependency tasks. VideoNIAH is a simple yet highly scalable benchmark construction framework, and we believe it will inspire future video benchmark works. The code and data are available at https://github.com/joez17/VideoNIAH.

arxiv情報

著者 Zijia Zhao,Haoyu Lu,Yuqi Huo,Yifan Du,Tongtian Yue,Longteng Guo,Bingning Wang,Weipeng Chen,Jing Liu
発行日 2024-06-13 17:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク