要約
大規模なテキストから画像への拡散モデルは、高品質の画像を生成する際に優れた能力を示しています。
ただし、これらのモデルをビデオ ドメインに適用する場合、ビデオ フレーム間の時間的一貫性を確保することは依然として大きな課題です。
この論文では、画像モデルをビデオに適応させるための、新しいゼロショットのテキストガイドによるビデオからビデオへの変換フレームワークを提案します。
このフレームワークには、キー フレームの翻訳と完全なビデオの翻訳という 2 つの部分が含まれています。
最初の部分では、適応された拡散モデルを使用してキー フレームを生成し、形状、テクスチャ、色の一貫性を強化するために階層的なクロスフレーム制約が適用されます。
2 番目の部分では、時間認識パッチ マッチングとフレーム ブレンディングを使用して、キー フレームを他のフレームに伝播します。
私たちのフレームワークは、グローバル スタイルとローカル テクスチャの時間的一貫性を低コストで (再トレーニングや最適化なしで) 実現します。
この適応は既存の画像拡散技術と互換性があり、LoRA で特定の被写体をカスタマイズしたり、ControlNet で追加の空間ガイダンスを導入したりするなど、フレームワークでそれらの技術を利用できるようになります。
広範な実験結果は、高品質で時間的に一貫したビデオをレンダリングする際に、既存の方法よりも提案されたフレームワークの有効性を実証しています。
要約(オリジナル)
Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames remains a formidable challenge. This paper proposes a novel zero-shot text-guided video-to-video translation framework to adapt image models to videos. The framework includes two parts: key frame translation and full video translation. The first part uses an adapted diffusion model to generate key frames, with hierarchical cross-frame constraints applied to enforce coherence in shapes, textures and colors. The second part propagates the key frames to other frames with temporal-aware patch matching and frame blending. Our framework achieves global style and local texture temporal consistency at a low cost (without re-training or optimization). The adaptation is compatible with existing image diffusion techniques, allowing our framework to take advantage of them, such as customizing a specific subject with LoRA, and introducing extra spatial guidance with ControlNet. Extensive experimental results demonstrate the effectiveness of our proposed framework over existing methods in rendering high-quality and temporally-coherent videos.
arxiv情報
著者 | Shuai Yang,Yifan Zhou,Ziwei Liu,Chen Change Loy |
発行日 | 2023-06-13 17:52:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google