TimeRefine: Temporal Grounding with Time Refining Video LLM

要約

ビデオの時間的グラウンディングは、テキストのプロンプトが与えられたビデオ内の関連する時間的境界を特定することを目的としています。
最近の研究は、ビデオ LLM が時間タイムスタンプのネクストトークン予測を通じてビデオ時間グラウンディングを実行できるようにすることに焦点を当てています。
ただし、時間トークン予測のみに依存するビデオ LLM にとって、ビデオ内のタイムスタンプを正確に位置特定することは依然として困難です。
私たちが提案する TimeRefine は、2 つの方法でこの課題に対処します。
まず、開始タイムスタンプと終了タイムスタンプを直接予測する代わりに、時間グラウンディング タスクを時間調整タスクとして再定式化します。モデルは最初に大まかな予測を行い、次にターゲット セグメントへのオフセットを予測することによって予測を調整します。
この調整プロセスは複数回繰り返され、それによってモデルは時間的位置特定の精度を徐々に自己改善します。
次に、モデルの時間的認識能力を強化するために、予測されたセグメントがグラウンド トゥルースからさらに逸脱する場合にモデルにさらにペナルティを与える補助予測ヘッドを組み込んで、モデルがより近く正確な予測を行うように促します。
当社のプラグアンドプレイ手法は、ほとんどの LLM ベースの時間的接地アプローチに統合できます。
実験結果は、TimeRefine が、ActivityNet データセットと Charades-STA データセットでそれぞれ 3.6% と 5.0% の mIoU 改善を達成することを示しています。
コードと事前トレーニングされたモデルがリリースされます。

要約(オリジナル)

Video temporal grounding aims to localize relevant temporal boundaries in a video given a textual prompt. Recent work has focused on enabling Video LLMs to perform video temporal grounding via next-token prediction of temporal timestamps. However, accurately localizing timestamps in videos remains challenging for Video LLMs when relying solely on temporal token prediction. Our proposed TimeRefine addresses this challenge in two ways. First, instead of directly predicting the start and end timestamps, we reformulate the temporal grounding task as a temporal refining task: the model first makes rough predictions and then refines them by predicting offsets to the target segment. This refining process is repeated multiple times, through which the model progressively self-improves its temporal localization accuracy. Second, to enhance the model’s temporal perception capabilities, we incorporate an auxiliary prediction head that penalizes the model more if a predicted segment deviates further from the ground truth, thus encouraging the model to make closer and more accurate predictions. Our plug-and-play method can be integrated into most LLM-based temporal grounding approaches. The experimental results demonstrate that TimeRefine achieves 3.6% and 5.0% mIoU improvements on the ActivityNet and Charades-STA datasets, respectively. Code and pretrained models will be released.

arxiv情報

著者 Xizi Wang,Feng Cheng,Ziyang Wang,Huiyu Wang,Md Mohaiminul Islam,Lorenzo Torresani,Mohit Bansal,Gedas Bertasius,David Crandall
発行日 2024-12-12 18:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク