TRACE: Temporal Grounding Video LLM via Causal Event Modeling

要約

ビデオ時間接地(VTG)はビデオ理解モデルにとって重要な能力であり、ビデオ閲覧や編集などの下流タスクにおいて重要な役割を果たす。様々なタスクを同時に効果的に処理し、ゼロショット予測を可能にするために、VTGタスクにビデオLLMを採用する傾向が高まっている。しかし、現在の動画LLMベースの手法は、自然言語生成にのみ依存しており、動画に内在する明確な構造をモデル化する能力がないため、VTGタスクに取り組む際の有効性が制限されている。この問題に対処するため、本稿ではまず、動画LLM出力をイベントのシーケンスとして表現し、以前のイベント、動画入力、およびテクスチャ指示を用いて現在のイベントを予測する、因果イベントモデリングフレームワークを正式に導入する。各イベントは、タイムスタンプ、顕著なスコア、テキストキャプションの3つの要素から構成される。次に、因果的イベントモデリングのフレームワークを効果的に実装するために、TRACEと呼ばれる新しいタスクインターリーブ型ビデオLLMを提案する。TRACEはビジュアルフレーム、タイムスタンプ、サリエントスコア、テキストを異なるタスクとして処理し、それぞれに様々なエンコーダとデコードヘッドを用いる。タスクトークンは因果イベントモデリングフレームワークの定式化に従ってインターリーブシーケンスに配置される。様々なVTGタスクとデータセットを用いた広範な実験により、TRACEが最先端のビデオLLMと比較して優れた性能を持つことが実証された。我々のモデルとコードはhttps://github.com/gyxxyg/TRACE。

要約(オリジナル)

Video Temporal Grounding (VTG) is a crucial capability for video understanding models and plays a vital role in downstream tasks such as video browsing and editing. To effectively handle various tasks simultaneously and enable zero-shot prediction, there is a growing trend in employing video LLMs for VTG tasks. However, current video LLM-based methods rely exclusively on natural language generation, lacking the ability to model the clear structure inherent in videos, which restricts their effectiveness in tackling VTG tasks. To address this issue, this paper first formally introduces causal event modeling framework, which represents video LLM outputs as sequences of events, and predict the current event using previous events, video inputs, and textural instructions. Each event consists of three components: timestamps, salient scores, and textual captions. We then propose a novel task-interleaved video LLM called TRACE to effectively implement the causal event modeling framework in practice. The TRACE process visual frames, timestamps, salient scores, and text as distinct tasks, employing various encoders and decoding heads for each. Task tokens are arranged in an interleaved sequence according to the causal event modeling framework’s formulation. Extensive experiments on various VTG tasks and datasets demonstrate the superior performance of TRACE compared to state-of-the-art video LLMs. Our model and code are available at https://github.com/gyxxyg/TRACE.

arxiv情報

著者 Yongxin Guo,Jingyu Liu,Mingda Li,Qingbin Liu,Xi Chen,Xiaoying Tang
発行日 2025-03-03 10:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク