MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

要約

私たちは、高品質で一貫性のあるテキストからビデオへの生成のための単純かつ効果的なフレームワークである MicroCinema を紹介します。
テキスト プロンプトをビデオに直接合わせる既存のアプローチとは異なり、MicroCinema では、テキストからビデオへの変換を 2 段階のプロセス (テキストから画像への生成と画像とテキストからビデオへの生成) に分割する分割統治戦略を導入しています。

この戦略には 2 つの大きな利点があります。
a) Stable Diffusion、Midjourney、DALLE などのテキストから画像へのモデルにおける最近の進歩を最大限に活用して、写真のようにリアルで非常に詳細な画像を生成できます。
b) 生成された画像を活用することで、モデルは、動きのダイナミクスの効率的な学習を優先し、外観の詳細に焦点を当てることを減らすことができます。
この戦略を効果的に実装するために、2 つのコア設計を導入します。
まず、与えられた画像の外観の保存を強化する外観注入ネットワークを提案します。
2 番目に、事前トレーニングされた 2D 拡散モデルの機能を維持することを目的とした新しいメカニズムである、Appearance Noise Prior を導入します。
これらの設計要素により、MicroCinema は提供されたテキスト プロンプトに従って、正確な動きを伴う高品質のビデオを生成できます。
広範な実験により、提案されたフレームワークの優位性が実証されています。
具体的には、MicroCinema は、UCF-101 で 342.86、MSR-VTT で 377.40 の SOTA ゼロショット FVD を達成します。
ビデオサンプルについては、https://wangyanhui666.github.io/MicroCinema.github.io/ を参照してください。

要約(オリジナル)

We present MicroCinema, a straightforward yet effective framework for high-quality and coherent text-to-video generation. Unlike existing approaches that align text prompts with video directly, MicroCinema introduces a Divide-and-Conquer strategy which divides the text-to-video into a two-stage process: text-to-image generation and image\&text-to-video generation. This strategy offers two significant advantages. a) It allows us to take full advantage of the recent advances in text-to-image models, such as Stable Diffusion, Midjourney, and DALLE, to generate photorealistic and highly detailed images. b) Leveraging the generated image, the model can allocate less focus to fine-grained appearance details, prioritizing the efficient learning of motion dynamics. To implement this strategy effectively, we introduce two core designs. First, we propose the Appearance Injection Network, enhancing the preservation of the appearance of the given image. Second, we introduce the Appearance Noise Prior, a novel mechanism aimed at maintaining the capabilities of pre-trained 2D diffusion models. These design elements empower MicroCinema to generate high-quality videos with precise motion, guided by the provided text prompts. Extensive experiments demonstrate the superiority of the proposed framework. Concretely, MicroCinema achieves SOTA zero-shot FVD of 342.86 on UCF-101 and 377.40 on MSR-VTT. See https://wangyanhui666.github.io/MicroCinema.github.io/ for video samples.

arxiv情報

著者 Yanhui Wang,Jianmin Bao,Wenming Weng,Ruoyu Feng,Dacheng Yin,Tao Yang,Jingxu Zhang,Qi Dai Zhiyuan Zhao,Chunyu Wang,Kai Qiu,Yuhui Yuan,Xiaoyan Sun,Chong Luo,Baining Guo
発行日 2023-11-30 18:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク