Number it: Temporal Grounding Videos like Flipping Manga

要約

Video Large Language Model (Vid-LLM) は、QA 対話用のビデオ コンテンツの理解において目覚ましい進歩を遂げました。
しかし、この視覚的理解を、ビデオ テンポラル グラウンディング (VTG) として知られる、正確な時間的位置特定を必要とするタスクに拡張するのに苦労しています。
このギャップに対処するために、我々は Number-Prompt (NumPro) を導入しました。これは、各ビデオ フレームに一意の数値識別子を追加することで、Vid-LLM が視覚的理解と時間的グラウンディングを橋渡しできるようにする新しい方法です。
NumPro はビデオを番号付きのフレーム画像のシーケンスとして扱い、VTG をマンガのコマを順番にめくるという直感的なプロセスに変換します。
これにより、Vid-LLM はイベント タイムラインを「読み取り」、ビジュアル コンテンツを対応する時間情報と正確にリンクできるようになります。
私たちの実験では、NumPro が追加の計算コストなしでトップティア Vid-LLM の VTG パフォーマンスを大幅に向上させることが実証されました。
さらに、NumPro で強化されたデータセットの微調整により、VTG の新しい最先端技術が定義され、モーメント取得では mIoU で最大 6.9\%、ハイライト検出では mAP で 8.5\% まで、これまでの最高パフォーマンスの手法を上回っています。

コードは https://github.com/yongliang-wu/NumPro で入手できます。

要約(オリジナル)

Video Large Language Models (Vid-LLMs) have made remarkable advancements in comprehending video content for QA dialogue. However, they struggle to extend this visual understanding to tasks requiring precise temporal localization, known as Video Temporal Grounding (VTG). To address this gap, we introduce Number-Prompt (NumPro), a novel method that empowers Vid-LLMs to bridge visual comprehension with temporal grounding by adding unique numerical identifiers to each video frame. Treating a video as a sequence of numbered frame images, NumPro transforms VTG into an intuitive process: flipping through manga panels in sequence. This allows Vid-LLMs to ‘read’ event timelines, accurately linking visual content with corresponding temporal information. Our experiments demonstrate that NumPro significantly boosts VTG performance of top-tier Vid-LLMs without additional computational cost. Furthermore, fine-tuning on a NumPro-enhanced dataset defines a new state-of-the-art for VTG, surpassing previous top-performing methods by up to 6.9\% in mIoU for moment retrieval and 8.5\% in mAP for highlight detection. The code will be available at https://github.com/yongliang-wu/NumPro.

arxiv情報

著者 Yongliang Wu,Xinting Hu,Yuyang Sun,Yizhou Zhou,Wenbo Zhu,Fengyun Rao,Bernt Schiele,Xu Yang
発行日 2024-11-15 16:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク