Lumiere: A Space-Time Diffusion Model for Video Generation

要約

ビデオ合成における極めて重要な課題である、リアルで多様かつコヒーレントな動きを描写するビデオの合成のために設計された、テキストからビデオへの拡散モデルであるLumiereを紹介する。この目的のために、我々は時空間U-Netアーキテクチャを導入し、モデルのシングルパスを通して、ビデオの全時間的持続時間を一度に生成する。これは、離れたキーフレームを合成した後に時間的な超解像を行う既存のビデオモデルとは対照的である。空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方を導入し、事前に訓練されたテキストから画像への拡散モデルを活用することで、我々のモデルは、複数の時空間スケールで処理することにより、フルフレームレートの低解像度ビデオを直接生成することを学習する。我々は、最先端のテキストからビデオへの生成結果を実証し、我々の設計が、画像からビデオ、ビデオのインペインティング、定型化された生成など、幅広いコンテンツ作成タスクやビデオ編集アプリケーションを容易に促進することを示す。

要約(オリジナル)

We introduce Lumiere — a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion — a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution — an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

arxiv情報

著者 Omer Bar-Tal,Hila Chefer,Omer Tov,Charles Herrmann,Roni Paiss,Shiran Zada,Ariel Ephrat,Junhwa Hur,Guanghui Liu,Amit Raj,Yuanzhen Li,Michael Rubinstein,Tomer Michaeli,Oliver Wang,Deqing Sun,Tali Dekel,Inbar Mosseri
発行日 2024-02-05 16:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク