Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought

要約

ビデオ分析からインタラクティブなシステムに至るまで、ビデオコンテンツの理解は、さまざまなアプリケーションに不可欠です。
大規模なビジョン言語モデル(VLM)の進歩にもかかわらず、これらのモデルは、徹底的なビデオ分析に不可欠な微妙で空間的な詳細を捉えるのに苦労しています。
このギャップに対処するために、チェーン思考(COT)の方法論を使用して時空間的理解を強化するように設計された画期的なデータセットであるビデオコットを紹介します。
ビデオコットには、192,000個の細粒のスパチオティオティオティオティオ型の質問分配ペアと23,000個の高品質のCOT解剖されたサンプルが含まれており、ビデオ理解における空間的理解を評価するための強固な基盤を提供します。
さらに、これらのタスクを評価するための包括的なベンチマークを提供します。各タスクには750の画像とカスタマイズされた評価メトリックが特徴です。
私たちの広範な実験は、現在のVLMSが満足のいくパフォーマンスを達成する上で重要な課題に直面しており、効果的な空間的理解の困難を高く示していることが明らかになりました。
全体として、ビデオコットデータセットとベンチマークは、高度なビデオ分析機能を必要とするインテリジェントシステムの将来の革新を理解し、サポートするための新しい道をオープンします。
これらのリソースを公開することにより、この重要な分野でのさらなる調査を奨励することを目指しています。
プロジェクトWebサイト:https://video-cot.github.io/。

要約(オリジナル)

Video content comprehension is essential for various applications, ranging from video analysis to interactive systems. Despite advancements in large-scale vision-language models (VLMs), these models often struggle to capture the nuanced, spatiotemporal details essential for thorough video analysis. To address this gap, we introduce Video-CoT, a groundbreaking dataset designed to enhance spatiotemporal understanding using Chain-of-Thought (CoT) methodologies. Video-CoT contains 192,000 fine-grained spa-tiotemporal question-answer pairs and 23,000 high-quality CoT-annotated samples, providing a solid foundation for evaluating spatiotemporal understanding in video comprehension. Additionally, we provide a comprehensive benchmark for assessing these tasks, with each task featuring 750 images and tailored evaluation metrics. Our extensive experiments reveal that current VLMs face significant challenges in achieving satisfactory performance, high-lighting the difficulties of effective spatiotemporal understanding. Overall, the Video-CoT dataset and benchmark open new avenues for research in multimedia understanding and support future innovations in intelligent systems requiring advanced video analysis capabilities. By making these resources publicly available, we aim to encourage further exploration in this critical area. Project website:https://video-cot.github.io/ .

arxiv情報

著者 Shuyi Zhang,Xiaoshuai Hao,Yingbo Tang,Lingfeng Zhang,Pengwei Wang,Zhongyuan Wang,Hongxuan Ma,Shanghang Zhang
発行日 2025-06-10 14:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク