DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight Detection

要約

ビデオモーメント検索とハイライト検出は、ビデオコンテンツが急増する現在において、ユーザ固有のクエリに基づいてモーメントを局所化し、クリップの関連性を推定することを目的として注目されている。ビデオコンテンツが時間的に連続的であることを考えると、ビデオ内の時間的イベント間の境界が明確でないことが多い。この境界の曖昧さにより、モデルがテキストとビデオクリップの対応関係を学習することが困難になり、その結果、既存の手法ではターゲットセグメントを予測する性能が劣ってしまう。この問題を軽減するために、我々はノイズ除去生成の観点から2つのタスクを共同で解決することを提案する。さらに、粗いものから細かいものへと繰り返し精緻化することで、ターゲット境界を明確に局在化することができる。具体的には、拡散モデルを組み合わせることで、2つのタスクを統一的な条件付きノイズ除去生成プロセスとして再定義する新しいフレームワークDiffusionVMRを提案する。学習中、ガウスノイズが入力として生成されるノイズ候補を、グランドトゥルースを破壊するために加えられる。モデルはこのノイズ追加プロセスを逆行させるように訓練される。推論フェーズでは、DiffusionVMRはガウスノイズから直接開始し、ノイズから意味のある出力へと提案を徐々に洗練する。注目すべきは、提案されたDiffusionVMRは、推論中に反復的に結果を洗練させることができる拡散モデルの利点を継承しており、粗いものから細かいものへの境界遷移を向上させる。さらに、DiffusionVMRの学習と推論は分離されている。DiffusionVMRでは、学習段階との整合性を保つことなく、推論時に任意の設定を使用することができる。広く使われている5つのベンチマーク(すなわち、QVHighlight、Charades-STA、TACoS、YouTubeHighlights、TVSum)を用いて、2つのタスク(モーメント検索とハイライト検出の両方、あるいはどちらか一方)にわたって行われた広範な実験により、提案するDiffusionVMRの有効性と柔軟性が実証された。

要約(オリジナル)

Video moment retrieval and highlight detection have received attention in the current era of video content proliferation, aiming to localize moments and estimate clip relevances based on user-specific queries. Given that the video content is continuous in time, there is often a lack of clear boundaries between temporal events in a video. This boundary ambiguity makes it challenging for the model to learn text-video clip correspondences, resulting in the subpar performance of existing methods in predicting target segments. To alleviate this problem, we propose to solve the two tasks jointly from the perspective of denoising generation. Moreover, the target boundary can be localized clearly by iterative refinement from coarse to fine. Specifically, a novel framework, DiffusionVMR, is proposed to redefine the two tasks as a unified conditional denoising generation process by combining the diffusion model. During training, Gaussian noise is added to corrupt the ground truth, with noisy candidates produced as input. The model is trained to reverse this noise addition process. In the inference phase, DiffusionVMR initiates directly from Gaussian noise and progressively refines the proposals from the noise to the meaningful output. Notably, the proposed DiffusionVMR inherits the advantages of diffusion models that allow for iteratively refined results during inference, enhancing the boundary transition from coarse to fine. Furthermore, the training and inference of DiffusionVMR are decoupled. An arbitrary setting can be used in DiffusionVMR during inference without consistency with the training phase. Extensive experiments conducted on five widely-used benchmarks (i.e., QVHighlight, Charades-STA, TACoS, YouTubeHighlights and TVSum) across two tasks (moment retrieval and/or highlight detection) demonstrate the effectiveness and flexibility of the proposed DiffusionVMR.

arxiv情報

著者 Henghao Zhao,Kevin Qinghong Lin,Rui Yan,Zechao Li
発行日 2024-03-02 12:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク