要約
ビデオの理解は、マルチモーダル大規模言語モデル (MLLM) にとって重要な次のステップです。
MLLM をより適切に評価するために、さまざまなベンチマークが導入されています。
それにもかかわらず、現在のビデオ ベンチマークは、データセットの構築コストが高く、特定のスキルを分離することが難しいため、反復開発中にビデオ モデルを評価するには依然として非効率的です。
本稿では、合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案します。
VideoNIAH は、元のビデオに無関係な視覚的な「ニードル」を挿入することで、ビデオ コンテンツをクエリ応答から切り離します。
このフレームワークは、事前定義されたルールを使用してクエリと応答のペアの生成を自動化し、手作業を最小限に抑えます。
クエリはビデオ理解の特定の側面に焦点を当てており、よりスキルに特化した評価が可能になります。
ビデオ コンテンツとクエリを分離することで、ビデオの多様性を高め、さまざまな長さにわたって評価することも可能になります。
VideoNIAH を利用して、ビデオ ベンチマーク VNBench をコンパイルします。これには、ビデオ理解の 3 つの重要な側面 (時間的知覚、時系列順序付け、時空間的一貫性) を評価するための検索、順序付け、カウントなどのタスクが含まれます。
私たちは独自モデルとオープンソース モデルの両方の包括的な評価を実施し、さまざまなタスクにわたるビデオ理解能力の大きな違いを明らかにしました。
さらに、テスト結果とモデル構成の詳細な分析を実行します。
これらの調査結果に基づいて、ビデオ MLLM トレーニングを改善するためのアドバイスをいくつか提供し、将来の研究とモデル開発の指針となる貴重な洞察を提供します。
コードとデータは https://github.com/joez17/VideoNIAH で入手できます。
要約(オリジナル)
Video understanding is a crucial next step for multimodal large language models (MLLMs). Various benchmarks are introduced for better evaluating the MLLMs. Nevertheless, current video benchmarks are still inefficient for evaluating video models during iterative development due to the high cost of constructing datasets and the difficulty in isolating specific skills. In this paper, we propose VideoNIAH (Video Needle In A Haystack), a benchmark construction framework through synthetic video generation. VideoNIAH decouples video content from their query-responses by inserting unrelated visual ‘needles’ into original videos. The framework automates the generation of query-response pairs using predefined rules, minimizing manual labor. The queries focus on specific aspects of video understanding, enabling more skill-specific evaluations. The separation between video content and the queries also allow for increased video variety and evaluations across different lengths. Utilizing VideoNIAH, we compile a video benchmark VNBench, which includes tasks such as retrieval, ordering, and counting to evaluate three key aspects of video understanding: temporal perception, chronological ordering, and spatio-temporal coherence. We conduct a comprehensive evaluation of both proprietary and open-source models, uncovering significant differences in their video understanding capabilities across various tasks. Additionally, we perform an in-depth analysis of the test results and model configurations. Based on these findings, we provide some advice for improving video MLLM training, offering valuable insights to guide future research and model development. The code and data are available at https://github.com/joez17/VideoNIAH.
arxiv情報
著者 | Zijia Zhao,Haoyu Lu,Yuqi Huo,Yifan Du,Tongtian Yue,Longteng Guo,Bingning Wang,Weipeng Chen,Jing Liu |
発行日 | 2024-10-24 14:12:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google