要約
Lumiere は、ビデオ合成における極めて重要な課題である、リアルで多様かつ一貫した動きを描写するビデオを合成するために設計されたテキストからビデオへの拡散モデルです。
この目的を達成するために、モデル内の単一パスを通じてビデオの時間的継続時間全体を一度に生成する時空間 U-Net アーキテクチャを導入します。
これは、離れたキーフレームを合成し、その後に時間的超解像を行う既存のビデオ モデルとは対照的です。このアプローチでは、本質的にグローバルな時間的一貫性を達成することが困難になります。
空間的および (重要な) 時間的ダウンサンプリングとアップサンプリングの両方を導入し、事前トレーニングされたテキストから画像への拡散モデルを活用することにより、私たちのモデルは、フルフレームレートの低解像度ビデオを次の方法で処理することで直接生成することを学習します。
複数の時空スケール。
最先端のテキストからビデオへの生成結果を実証し、画像からビデオへの変換、ビデオの修復、様式化された生成など、幅広いコンテンツ作成タスクとビデオ編集アプリケーションを容易に実行できる設計であることを示します。
要約(オリジナル)
We introduce Lumiere — a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion — a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution — an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.
arxiv情報
著者 | Omer Bar-Tal,Hila Chefer,Omer Tov,Charles Herrmann,Roni Paiss,Shiran Zada,Ariel Ephrat,Junhwa Hur,Yuanzhen Li,Tomer Michaeli,Oliver Wang,Deqing Sun,Tali Dekel,Inbar Mosseri |
発行日 | 2024-01-23 18:05:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google