Unleashing Hour-Scale Video Training for Long Video-Language Understanding

要約

最近の長い形式のビデオ言語理解ベンチマークは、ビデオの大規模なマルチモーダルモデル(ビデオLMM)の進歩を促進しました。
しかし、よく承認された長いビデオの希少性により、1時間にわたるビデオllmのトレーニングが不足していません。
このギャップを埋めるために、Videomarathonを紹介します。これは、大規模な1時間のビデオ命令に満ちたデータセットです。
このデータセットには、ビデオあたり3〜60分の多様なドメインから供給された約9,700時間の長いビデオが含まれています。
具体的には、3.3mの高品質のQAペアが含まれており、時間性、空間性、オブジェクト、アクション、シーン、イベントの6つの基本的なトピックにまたがっています。
既存のビデオ命令データセットと比較して、Videomarathonはトレーニングビデオの期間を最大1時間まで拡張し、短期および長期のビデオ理解の両方を必要とする22の多様なタスクをサポートします。
VideoMarathonに基づいて、時間スケールのビデオ言語モデリングのための強力で効率的なビデオ-lmmであるHour-llavaを提案します。
これにより、メモリ増強モジュールを活用することにより、1 fpsサンプリングで1時間のビデオトレーニングと推論が可能になります。これにより、キャッシュされたフルビデオコンテキストからユーザーの質問関連および空間的情報セマンティクスを適応的に統合します。
私たちの実験では、Hour-llavaは複数の長いビデオ言語ベンチマークで最高のパフォーマンスを達成し、ビデオ腫瘍データセットの高品質とHour-Lovaモデルの優位性を実証します。

要約(オリジナル)

Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.

arxiv情報

著者 Jingyang Lin,Jialian Wu,Ximeng Sun,Ze Wang,Jiang Liu,Yusheng Su,Xiaodong Yu,Hao Chen,Jiebo Luo,Zicheng Liu,Emad Barsoum
発行日 2025-06-05 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク