DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis

要約

近年、拡散モデルが画像合成における最も強力なアプローチとして浮上しています。
ただし、これらのモデルをビデオ合成に直接適用すると、コンテンツのちらつきが目立つことがよくあるため、課題が生じます。
最近提案されたゼロショット手法はフリッカーをある程度軽減できますが、一貫したビデオを生成するのは依然として困難です。
この論文では、画像合成パイプラインをビデオ合成パイプラインに変換することを目的とした新しいアプローチである DiffSynth を提案します。
DiffSynth は、潜在的な反復内フリッカー フレームワークとビデオ ディフリッカー アルゴリズムという 2 つの主要なコンポーネントで構成されています。
潜在的な反復内フリッカー フレームワークは、ビデオ ディフリッカーを拡散モデルの潜在空間に適用し、中間ステップでのフリッカーの蓄積を効果的に防ぎます。
さらに、パッチ ブレンディング アルゴリズムと呼ばれるビデオ デフリッカー アルゴリズムを提案します。このアルゴリズムは、オブジェクトを異なるフレームに再マッピングし、それらをブレンドしてビデオの一貫性を高めます。
DiffSynth の注目すべき利点の 1 つは、テキスト ガイド付きビデオ スタイライゼーション、ファッション ビデオ合成、画像ガイド付きビデオ スタイライゼーション、ビデオ復元、3D レンダリングなど、さまざまなビデオ合成タスクに一般的に適用できることです。
テキストガイドによるビデオのスタイル化のタスクでは、厳選せずに高品質のビデオを合成できるようになります。
実験結果は、DiffSynth の有効性を示しています。
すべてのビデオはプロジェクトページでご覧いただけます。
ソースコードも公開予定です。

要約(オリジナル)

In recent years, diffusion models have emerged as the most powerful approach in image synthesis. However, applying these models directly to video synthesis presents challenges, as it often leads to noticeable flickering contents. Although recently proposed zero-shot methods can alleviate flicker to some extent, we still struggle to generate coherent videos. In this paper, we propose DiffSynth, a novel approach that aims to convert image synthesis pipelines to video synthesis pipelines. DiffSynth consists of two key components: a latent in-iteration deflickering framework and a video deflickering algorithm. The latent in-iteration deflickering framework applies video deflickering to the latent space of diffusion models, effectively preventing flicker accumulation in intermediate steps. Additionally, we propose a video deflickering algorithm, named patch blending algorithm, that remaps objects in different frames and blends them together to enhance video consistency. One of the notable advantages of DiffSynth is its general applicability to various video synthesis tasks, including text-guided video stylization, fashion video synthesis, image-guided video stylization, video restoring, and 3D rendering. In the task of text-guided video stylization, we make it possible to synthesize high-quality videos without cherry-picking. The experimental results demonstrate the effectiveness of DiffSynth. All videos can be viewed on our project page. Source codes will also be released.

arxiv情報

著者 Zhongjie Duan,Lizhou You,Chengyu Wang,Cen Chen,Ziheng Wu,Weining Qian,Jun Huang,Fei Chao
発行日 2023-08-08 07:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク