Imagen Video: High Definition Video Generation with Diffusion Models


我々は、ビデオ拡散モデルのカスケードに基づいて、テキスト条件付きビデオ生成システムであるイマージェン ビデオを発表する。テキストプロンプトが与えられると、Imagen Videoはベースビデオ生成モデルと、インターリーブされた空間および時間ビデオ超解像モデルのシーケンスを用いて高解像度ビデオを生成する。我々は、特定の解像度における完全畳み込み時間・空間超解像モデルの選択、拡散モデルのvパラメータ化の選択などの設計上の決定を含む、高解像度テキストからビデオへのモデルとしてどのようにシステムをスケールアップするかについて説明する。さらに、拡散に基づく画像生成に関する先行研究の知見を確認し、ビデオ生成の設定に移行する。最後に、高速かつ高品質なサンプリングのために、分類器不要のガイダンスとともに、ビデオモデルに漸進的蒸留を適用します。Imagen Videoは忠実度の高いビデオを生成できるだけでなく、様々な芸術的スタイルや3Dオブジェクトを理解した多様なビデオやテキストアニメーションを生成できるなど、高い制御性と世界知識を有していることがわかります。サンプルは をご覧ください。


We present Imagen Video, a text-conditional video generation system based on a cascade of video diffusion models. Given a text prompt, Imagen Video generates high definition videos using a base video generation model and a sequence of interleaved spatial and temporal video super-resolution models. We describe how we scale up the system as a high definition text-to-video model including design decisions such as the choice of fully-convolutional temporal and spatial super-resolution models at certain resolutions, and the choice of the v-parameterization of diffusion models. In addition, we confirm and transfer findings from previous work on diffusion-based image generation to the video generation setting. Finally, we apply progressive distillation to our video models with classifier-free guidance for fast, high quality sampling. We find Imagen Video not only capable of generating videos of high fidelity, but also having a high degree of controllability and world knowledge, including the ability to generate diverse videos and text animations in various artistic styles and with 3D object understanding. See for samples.


著者 Jonathan Ho,William Chan,Chitwan Saharia,Jay Whang,Ruiqi Gao,Alexey Gritsenko,Diederik P. Kingma,Ben Poole,Mohammad Norouzi,David J. Fleet,Tim Salimans
発行日 2022-10-05 14:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク