要約
この研究は、事前トレーニングされたテキストから画像への (T2I) モデルを基礎として利用することにより、高品質のテキストからビデオへの (T2V) 生成モデルを学習することを目的としています。
a) 視覚的に現実的で時間的に一貫したビデオの合成を達成すると同時に、b) 事前トレーニングされた T2I モデルの強力な創造的生成の性質を維持することは、非常に望ましいが困難なタスクです。
この目的を達成するために、我々は、ベース T2V モデル、時間補間モデル、およびビデオ超解像度モデルで構成される、カスケードビデオ潜在拡散モデル上で動作する統合ビデオ生成フレームワークである LaVie を提案します。
私たちの重要な洞察は 2 つあります。 1) 回転位置エンコーディングと組み合わせた単純な時間的セルフアテンションの組み込みにより、ビデオ データに固有の時間的相関が適切に捕捉されることを明らかにします。
2) さらに、画像とビデオを共同で微調整するプロセスが、高品質で創造的な成果を生み出す上で極めて重要な役割を果たしていることを検証します。
LaVie のパフォーマンスを向上させるために、品質、多様性、美的魅力を優先した 2,500 万のテキストとビデオのペアで構成される、Vimeo25M という名前の包括的で多様なビデオ データセットを提供しています。
広範な実験により、LaVie が量的および質的に最先端のパフォーマンスを達成していることが実証されています。
さらに、さまざまな長時間ビデオ生成およびパーソナライズされたビデオ合成アプリケーションにおける、事前トレーニングされた LaVie モデルの多用途性を紹介します。
要約(オリジナル)
This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.
arxiv情報
著者 | Yaohui Wang,Xinyuan Chen,Xin Ma,Shangchen Zhou,Ziqi Huang,Yi Wang,Ceyuan Yang,Yinan He,Jiashuo Yu,Peiqing Yang,Yuwei Guo,Tianxing Wu,Chenyang Si,Yuming Jiang,Cunjian Chen,Chen Change Loy,Bo Dai,Dahua Lin,Yu Qiao,Ziwei Liu |
発行日 | 2023-09-26 17:52:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google