VideoDirector: Precise Video Editing via Text-to-Video Models

要約

テキストから画像 (T2I) モデルを使用した典型的な反転してから編集するパラダイムは有望な結果を示していますが、それをテキストからビデオ (T2V) モデルに直接拡張すると、色のちらつきやコンテンツの歪みなどの深刻なアーティファクトが依然として発生します。
その結果、現在のビデオ編集方法は主に T2I モデルに依存していますが、T2I モデルには本質的に時間的コヒーレンス生成能力が欠けており、編集結果が劣悪になることがよくあります。
この論文では、典型的な編集パラダイムの失敗の原因は次のとおりであると考えます。 1) 時空間の緊密な結合。
バニラのピボタルベースの反転戦略は、ビデオ拡散モデルの時空間情報のもつれを解くのに苦労しています。
2) 複雑な時空間配置。
バニラのクロスアテンション コントロールでは、未編集のコンテンツを保持することが不十分です。
これらの制限に対処するために、より正確なピボット反転のための重要な時間的手がかりを提供する、時空間分離ガイダンス (STDG) とマルチフレームのヌルテキスト最適化戦略を提案します。
さらに、正確な部分コンテンツ編集のために高い忠実度を維持するためのセルフアテンション制御戦略を導入します。
実験結果は、私たちの方法 (VideoDirector と呼ばれる) が T2V モデルの強力な時間生成機能を効果的に活用し、精度、動きの滑らかさ、リアリズム、および未編集のコンテンツの忠実度において最先端のパフォーマンスを備えた編集済みビデオを生成することを示しています。

要約(オリジナル)

Despite the typical inversion-then-editing paradigm using text-to-image (T2I) models has demonstrated promising results, directly extending it to text-to-video (T2V) models still suffers severe artifacts such as color flickering and content distortion. Consequently, current video editing methods primarily rely on T2I models, which inherently lack temporal-coherence generative ability, often resulting in inferior editing results. In this paper, we attribute the failure of the typical editing paradigm to: 1) Tightly Spatial-temporal Coupling. The vanilla pivotal-based inversion strategy struggles to disentangle spatial-temporal information in the video diffusion model; 2) Complicated Spatial-temporal Layout. The vanilla cross-attention control is deficient in preserving the unedited content. To address these limitations, we propose a spatial-temporal decoupled guidance (STDG) and multi-frame null-text optimization strategy to provide pivotal temporal cues for more precise pivotal inversion. Furthermore, we introduce a self-attention control strategy to maintain higher fidelity for precise partial content editing. Experimental results demonstrate that our method (termed VideoDirector) effectively harnesses the powerful temporal generation capabilities of T2V models, producing edited videos with state-of-the-art performance in accuracy, motion smoothness, realism, and fidelity to unedited content.

arxiv情報

著者 Yukun Wang,Longguang Wang,Zhiyuan Ma,Qibin Hu,Kai Xu,Yulan Guo
発行日 2024-11-26 16:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク