要約
さまざまなアスペクト比と同期オーディオを備えた高品質の1080p HDビデオを生成するファンデーションモデルのキャストであるMovie Genを発表します。
また、正確な命令ベースのビデオ編集やユーザーの画像に基づいたパーソナライズされたビデオの生成などの追加の機能も示しています。
私たちのモデルは、テキストからビデオの合成、ビデオのパーソナライズ、ビデオ編集、ビデオからオーディオの生成、テキストからオーディオの生成など、複数のタスクに関する新しい最先端の最先端を設定します。
私たちの最大のビデオ生成モデルは、最大コンテキスト長の73Kビデオトークンでトレーニングされた30Bパラメーター変圧器で、16フレームあたり16秒の生成されたビデオに対応しています。
アーキテクチャ、潜在スペース、トレーニング目標とレシピ、データキュレーション、評価プロトコル、並列化技術、および推論の最適化に関する複数の技術的な革新と単純化を示しています。
この論文が、研究コミュニティがメディア生成モデルの進歩と革新を加速するのに役立つことを願っています。
このペーパーのすべてのビデオは、https://go.fb.me/moviegenresearchvideosで入手できます。
要約(オリジナル)
We present Movie Gen, a cast of foundation models that generates high-quality, 1080p HD videos with different aspect ratios and synchronized audio. We also show additional capabilities such as precise instruction-based video editing and generation of personalized videos based on a user’s image. Our models set a new state-of-the-art on multiple tasks: text-to-video synthesis, video personalization, video editing, video-to-audio generation, and text-to-audio generation. Our largest video generation model is a 30B parameter transformer trained with a maximum context length of 73K video tokens, corresponding to a generated video of 16 seconds at 16 frames-per-second. We show multiple technical innovations and simplifications on the architecture, latent spaces, training objectives and recipes, data curation, evaluation protocols, parallelization techniques, and inference optimizations that allow us to reap the benefits of scaling pre-training data, model size, and training compute for training large scale media generation models. We hope this paper helps the research community to accelerate progress and innovation in media generation models. All videos from this paper are available at https://go.fb.me/MovieGenResearchVideos.
arxiv情報
著者 | Adam Polyak,Amit Zohar,Andrew Brown,Andros Tjandra,Animesh Sinha,Ann Lee,Apoorv Vyas,Bowen Shi,Chih-Yao Ma,Ching-Yao Chuang,David Yan,Dhruv Choudhary,Dingkang Wang,Geet Sethi,Guan Pang,Haoyu Ma,Ishan Misra,Ji Hou,Jialiang Wang,Kiran Jagadeesh,Kunpeng Li,Luxin Zhang,Mannat Singh,Mary Williamson,Matt Le,Matthew Yu,Mitesh Kumar Singh,Peizhao Zhang,Peter Vajda,Quentin Duval,Rohit Girdhar,Roshan Sumbaly,Sai Saketh Rambhatla,Sam Tsai,Samaneh Azadi,Samyak Datta,Sanyuan Chen,Sean Bell,Sharadh Ramaswamy,Shelly Sheynin,Siddharth Bhattacharya,Simran Motwani,Tao Xu,Tianhe Li,Tingbo Hou,Wei-Ning Hsu,Xi Yin,Xiaoliang Dai,Yaniv Taigman,Yaqiao Luo,Yen-Cheng Liu,Yi-Chiao Wu,Yue Zhao,Yuval Kirstain,Zecheng He,Zijian He,Albert Pumarola,Ali Thabet,Artsiom Sanakoyeu,Arun Mallya,Baishan Guo,Boris Araya,Breena Kerr,Carleigh Wood,Ce Liu,Cen Peng,Dimitry Vengertsev,Edgar Schonfeld,Elliot Blanchard,Felix Juefei-Xu,Fraylie Nord,Jeff Liang,John Hoffman,Jonas Kohler,Kaolin Fire,Karthik Sivakumar,Lawrence Chen,Licheng Yu,Luya Gao,Markos Georgopoulos,Rashel Moritz,Sara K. Sampson,Shikai Li,Simone Parmeggiani,Steve Fine,Tara Fowler,Vladan Petrovic,Yuming Du |
発行日 | 2025-02-26 16:05:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google