ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos

要約

大規模言語モデル (LLM) は、長いテキストから情報を取得することに優れていますが、視覚言語モデル (VLM) は、1 時間のビデオでは、特に時間的グラウンディングにおいて困難に直面します。
具体的には、これらの VLM はフレーム制限によって制約され、多くの場合、拡張ビデオ コンテンツの正確なイベント位置特定に必要な重要な時間的詳細が失われます。
私たちは、1 時間のビデオ内のイベントを見つけるために設計された再帰的ビジョン言語モデルである ReVisionLLM を提案します。
人間の検索戦略に触発された私たちのモデルは、最初は関心のある幅広いセグメントをターゲットにし、徐々に焦点を修正して正確な時間的境界を特定します。
私たちのモデルは、数分から数時間まで、非常に異なる長さのビデオをシームレスに処理できます。
また、個別のイベントをキャプチャする短いクリップから開始し、徐々に長いビデオに拡張する階層型トレーニング戦略も導入します。
私たちの知る限り、ReVisionLLM は 1 時間のビデオで時間的グラウンディングが可能な最初の VLM であり、複数のデータセットにわたる以前の最先端の手法を大幅に上回っています (MAD で +2.6% R1@0.1)。
コードは https://github.com/Tanveer81/ReVisionLLM で入手できます。

要約(オリジナル)

Large language models (LLMs) excel at retrieving information from lengthy text, but their vision-language counterparts (VLMs) face difficulties with hour-long videos, especially for temporal grounding. Specifically, these VLMs are constrained by frame limitations, often losing essential temporal details needed for accurate event localization in extended video content. We propose ReVisionLLM, a recursive vision-language model designed to locate events in hour-long videos. Inspired by human search strategies, our model initially targets broad segments of interest, progressively revising its focus to pinpoint exact temporal boundaries. Our model can seamlessly handle videos of vastly different lengths, from minutes to hours. We also introduce a hierarchical training strategy that starts with short clips to capture distinct events and progressively extends to longer videos. To our knowledge, ReVisionLLM is the first VLM capable of temporal grounding in hour-long videos, outperforming previous state-of-the-art methods across multiple datasets by a significant margin (+2.6% R1@0.1 on MAD). The code is available at https://github.com/Tanveer81/ReVisionLLM.

arxiv情報

著者 Tanveer Hannan,Md Mohaiminul Islam,Jindong Gu,Thomas Seidl,Gedas Bertasius
発行日 2024-11-22 12:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク