Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval

要約

ビデオモーメント検索(VMR)は、非トリムビデオのテキストクエリに対応する最も可能性の高いビデオモーメントを見つけることを目的としています。
既存の方法のトレーニングは、多様で一般化可能なVMRデータセットの欠如により制限され、モーメントテキスト関連を新しいセマンティックコンセプトを含むクエリに一般化する能力を妨げます(トレーニングソースドメインで視覚的およびテキストの両方で見えない)。
新しいセマンティクスへのモデル一般化のために、既存の方法は、ソースドメインペアワイズトレーニングデータに加えて、ターゲットドメインからのビデオとテキストの両方のペアにアクセスできると仮定することに大きく依存しています。
これは実用的でもスケーラブルでもありません。
この作業では、ターゲットドメインからビデオを見ずにモデルトレーニングで利用できる新しいセマンティクスを説明するテキスト文のみが利用できると仮定することにより、より一般化可能なアプローチを導入します。
そのために、FVEと呼ばれる微調整されたビデオ編集フレームワークを提案します。これは、見られたソースの概念から新しい概念で構成される目に見えないターゲット文まで、微調整されたビデオ編集を容易にする生成ビデオ拡散を調査します。
これにより、ターゲットドメインの新しい概念に対応する目に見えないビデオモーメントの生成的仮説が可能になります。
この細粒の生成ビデオ拡散は、ターゲットドメインに目に見えない新規語彙の意味的な区別を導入しながら、ソースドメインからの元のビデオ構造と件名の詳細を保持します。
重要な課題は、視覚的に心地よいビデオを合成するだけでなく、VMRを最適化する上で意味のあるこの生成的な細粒拡散プロセスを有効にする方法です。
3つの定量的メトリックを統合するハイブリッド選択メカニズムを導入して、潜在的なソーストレーニングデータへの拡大の追加として合成ビデオモーメント(新しいビデオ仮説)を選択的に組み込んだハイブリッド選択メカニズムを導入することで解決します…

要約(オリジナル)

Video moment retrieval (VMR) aims to locate the most likely video moment(s) corresponding to a text query in untrimmed videos. Training of existing methods is limited by the lack of diverse and generalisable VMR datasets, hindering their ability to generalise moment-text associations to queries containing novel semantic concepts (unseen both visually and textually in a training source domain). For model generalisation to novel semantics, existing methods rely heavily on assuming to have access to both video and text sentence pairs from a target domain in addition to the source domain pair-wise training data. This is neither practical nor scalable. In this work, we introduce a more generalisable approach by assuming only text sentences describing new semantics are available in model training without having seen any videos from a target domain. To that end, we propose a Fine-grained Video Editing framework, termed FVE, that explores generative video diffusion to facilitate fine-grained video editing from the seen source concepts to the unseen target sentences consisting of new concepts. This enables generative hypotheses of unseen video moments corresponding to the novel concepts in the target domain. This fine-grained generative video diffusion retains the original video structure and subject specifics from the source domain while introducing semantic distinctions of unseen novel vocabularies in the target domain. A critical challenge is how to enable this generative fine-grained diffusion process to be meaningful in optimising VMR, more than just synthesising visually pleasing videos. We solve this problem by introducing a hybrid selection mechanism that integrates three quantitative metrics to selectively incorporate synthetic video moments (novel video hypotheses) as enlarged additions to the original source training data, whilst minimising potential …

arxiv情報

著者 Dezhao Luo,Shaogang Gong,Jiabo Huang,Hailin Jin,Yang Liu
発行日 2025-02-21 12:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク