要約
テキスト駆動の拡散ベースのビデオ編集は、現実世界の動きを確立するという、画像編集文献では遭遇しない独特の課題を提示します。
既存のビデオ編集アプローチとは異なり、ここではスコア蒸留サンプリングに焦点を当てて、標準の逆拡散プロセスを回避し、すでに自然な動きを示しているビデオから最適化を開始します。
私たちの分析により、ビデオスコアの抽出はターゲットテキストによって示される新しいコンテンツを効果的に導入できる一方で、重大な構造と動作の逸脱を引き起こす可能性があることが明らかになりました。
これに対抗するために、スコアの蒸留中に元のビデオと編集されたビデオの時空間の自己相似性を一致させることを提案します。
スコア蒸留の使用により、私たちのアプローチはモデルに依存せず、カスケードビデオ拡散フレームワークと非カスケードビデオ拡散フレームワークの両方に適用できます。
主要な手法との広範な比較を通じて、私たちのアプローチは、元の構造と動きを正確に維持しながら外観を変更する点でその優位性を実証しています。
要約(オリジナル)
Text-driven diffusion-based video editing presents a unique challenge not encountered in image editing literature: establishing real-world motion. Unlike existing video editing approaches, here we focus on score distillation sampling to circumvent the standard reverse diffusion process and initiate optimization from videos that already exhibit natural motion. Our analysis reveals that while video score distillation can effectively introduce new content indicated by target text, it can also cause significant structure and motion deviation. To counteract this, we propose to match space-time self-similarities of the original video and the edited video during the score distillation. Thanks to the use of score distillation, our approach is model-agnostic, which can be applied for both cascaded and non-cascaded video diffusion frameworks. Through extensive comparisons with leading methods, our approach demonstrates its superiority in altering appearances while accurately preserving the original structure and motion.
arxiv情報
著者 | Hyeonho Jeong,Jinho Chang,Geon Yeong Park,Jong Chul Ye |
発行日 | 2024-07-15 13:34:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google