VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

要約

Video Temporal Grounding(VTG)は、言語クエリに基づいて特定のビデオ内のイベント タイムスタンプを正確に識別することに重点を置き、ビデオの閲覧や編集などの下流タスクで重要な役割を果たします。
Video Large Language Model(ビデオ LLM)は、ビデオ コンテンツの理解において大幅な進歩を遂げていますが、ビデオ内のタイムスタンプを正確に特定するという課題に直面することが多く、VTG タスクでのパフォーマンスが制限されます。
したがって、タイムスタンプを効率的に見つけるビデオ LLM の能力を向上させるには、2 つの重要な側面を強化する必要があると主張します。
まず、主流の VTG タスクを網羅する高品質の指導用チューニング データセットが不可欠です。
2 番目に、タイムスタンプの知識をビデオ LLM に直接組み込むことが重要です。これにより、モデルがタイムスタンプ情報を効率的に理解できるようになります。
これらのニーズに対処するために、私たちはまず、モーメント取得、高密度ビデオキャプション、ビデオ要約、ビデオハイライト検出などの VTG タスクをカバーする高品質で包括的な命令チューニング データセットである VTG-IT-120K を導入します。
さらに、VTG タスク用に特別に設計されたビデオ LLM モデル、VTG-LLM を提案します。これは、(1) タイムスタンプの知識をビジュアル トークンに効果的に統合します。
(2) タイムスタンプの知識を特別に処理する絶対時間トークンを組み込むことで、概念の変化を回避します。
(3) 軽量で高性能のスロットベースのトークン圧縮方式を導入し、より多くのビデオ フレームのサンプリングを容易にします。
包括的な実験では、さまざまな VTG タスクにわたって、他のビデオ LLM 方式と比較して VTG-LLM の優れたパフォーマンスが実証されています。
コードとデータセットは \url{https://github.com/gyxxyg/VTG-LLM} で入手できます。

要約(オリジナル)

Video Temporal Grounding (VTG) focuses on accurately identifying event timestamps within a particular video based on a linguistic query, playing a vital role in downstream tasks such as video browsing and editing. While Video Large Language Models (video LLMs) have made significant progress in understanding video content, they often face challenges in accurately pinpointing timestamps within videos, which limits their performance on VTG tasks. Therefore, to improve video LLMs’ ability to effectively locate timestamps, we argue that two critical aspects need to be enhanced. First, it is essential to have high-quality instructional tuning datasets that encompass mainstream VTG tasks. Second, directly incorporating timestamp knowledge into video LLMs is crucial, as it enables models to efficiently comprehend timestamp information. To address these needs, we first introduce VTG-IT-120K, a high-quality and comprehensive instruction tuning dataset that covers VTG tasks such as moment retrieval, dense video captioning, video summarization, and video highlight detection. Furthermore, we propose a specially designed video LLM model for VTG tasks, VTG-LLM, which (1) effectively integrates timestamp knowledge into visual tokens; (2) incorporates absolute-time tokens that specifically handle timestamp knowledge, thereby avoiding concept shifts; and (3) introduces a lightweight, high-performance slot-based token compression method to facilitate the sampling of more video frames. Comprehensive experiments showcase the superior performance of VTG-LLM in comparison to other video LLM methods across various VTG tasks. Our code and datasets are available at \url{https://github.com/gyxxyg/VTG-LLM}.

arxiv情報

著者 Yongxin Guo,Jingyu Liu,Mingda Li,Xiaoying Tang,Xi Chen,Bo Zhao
発行日 2024-07-01 06:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク