Dual-Stream Diffusion Net for Text-to-Video Generation

要約

新たな普及モデルの登場により、最近ではテキストからビデオへの生成がますます注目を集めています。
しかし、重要なボトルネックは、ジェネレーティブビデオにはちらつきやアーティファクトが含まれる傾向があることです。
この研究では、ビデオを生成する際のコンテンツのバリエーションの一貫性を向上させるために、デュアルストリーム拡散ネット (DSDN) を提案します。
特に、設計された 2 つの拡散ストリーム、ビデオ コンテンツとモーション ブランチは、コンテンツだけでなくパーソナライズされたビデオ バリエーションを生成するためにプライベート スペースで個別に実行できるだけでなく、設計された
クロストランスインタラクションモジュール。生成されたビデオの滑らかさに利益をもたらします。
さらに、ビデオモーションの操作を容易にするモーションデコンポーザーとコンバイナーも紹介します。
定性的および定量的実験は、私たちの方法がちらつきの少ない驚くべき連続ビデオを生成できることを示しています。

要約(オリジナル)

With the emerging diffusion models, recently, text-to-video generation has aroused increasing attention. But an important bottleneck therein is that generative videos often tend to carry some flickers and artifacts. In this work, we propose a dual-stream diffusion net (DSDN) to improve the consistency of content variations in generating videos. In particular, the designed two diffusion streams, video content and motion branches, could not only run separately in their private spaces for producing personalized video variations as well as content, but also be well-aligned between the content and motion domains through leveraging our designed cross-transformer interaction module, which would benefit the smoothness of generated videos. Besides, we also introduce motion decomposer and combiner to faciliate the operation on video motion. Qualitative and quantitative experiments demonstrate that our method could produce amazing continuous videos with fewer flickers.

arxiv情報

著者 Binhui Liu,Xin Liu,Anbo Dai,Zhiyong Zeng,Dan Wang,Zhen Cui,Jian Yang
発行日 2023-12-30 04:21:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク