要約
我々は、生成を 2 つのステップに分解するテキストからビデオへの生成モデルである Emu Video を紹介します。最初にテキストを条件とした画像を生成し、次にテキストと生成された画像を条件としたビデオを生成します。
私たちは、以前の研究のようにモデルの深いカスケードを必要とせずに、高品質で高解像度のビデオを直接生成できるようにする、拡散のための調整されたノイズ スケジュールや多段階トレーニングといった重要な設計上の決定を特定します。
人間による評価では、Google の Imagen Video に対して 81%、Nvidia の PYOCO に対して 90%、Meta の Make-A-Video に対して 96% と、以前のすべての作品と比較して、当社が生成したビデオの品質が非常に高い評価を受けています。
私たちのモデルは、RunwayML の Gen2 や Pika Labs などの商用ソリューションよりも優れたパフォーマンスを発揮します。
最後に、私たちの因数分解アプローチは、ユーザーのテキスト プロンプトに基づいて画像をアニメーション化するのに自然に役立ち、そこでは私たちの世代が以前の作品より 96% 優先されます。
要約(オリジナル)
We present Emu Video, a text-to-video generation model that factorizes the generation into two steps: first generating an image conditioned on the text, and then generating a video conditioned on the text and the generated image. We identify critical design decisions–adjusted noise schedules for diffusion, and multi-stage training–that enable us to directly generate high quality and high resolution videos, without requiring a deep cascade of models as in prior work. In human evaluations, our generated videos are strongly preferred in quality compared to all prior work–81% vs. Google’s Imagen Video, 90% vs. Nvidia’s PYOCO, and 96% vs. Meta’s Make-A-Video. Our model outperforms commercial solutions such as RunwayML’s Gen2 and Pika Labs. Finally, our factorizing approach naturally lends itself to animating images based on a user’s text prompt, where our generations are preferred 96% over prior work.
arxiv情報
著者 | Rohit Girdhar,Mannat Singh,Andrew Brown,Quentin Duval,Samaneh Azadi,Sai Saketh Rambhatla,Akbar Shah,Xi Yin,Devi Parikh,Ishan Misra |
発行日 | 2023-11-17 18:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google