Movie Gen: A Cast of Media Foundation Models

要約

さまざまなアスペクト比と同期されたオーディオを備えた高品質の 1080p HD ビデオを生成する基礎モデルである Movie Gen を紹介します。
また、正確な指示ベースのビデオ編集や、ユーザーのイメージに基づいてパーソナライズされたビデオの生成などの追加機能も示します。
当社のモデルは、テキストからビデオへの合成、ビデオのパーソナライゼーション、ビデオ編集、ビデオからオーディオへの生成、テキストからオーディオへの生成など、複数のタスクに関して新しい最先端技術を確立しています。
私たちの最大のビデオ生成モデルは、73K ビデオ トークンの最大コンテキスト長でトレーニングされた 30B パラメーター トランスフォーマーで、16 フレーム/秒で 16 秒の生成ビデオに相当します。
アーキテクチャ、潜在空間、トレーニングの目的とレシピ、データキュレーション、評価プロトコル、並列化手法、および推論の最適化に関する複数の技術革新と簡素化を示し、これによりトレーニング前のデータ、モデルのサイズ、トレーニングのスケーリングのメリットを得ることができます。
大規模なメディア生成モデルをトレーニングするための計算を行います。
この論文が、研究コミュニティがメディア生成モデルの進歩と革新を加速するのに役立つことを願っています。
この論文のすべてのビデオは https://go.fb.me/MovieGenResearchVideos でご覧いただけます。

要約(オリジナル)

We present Movie Gen, a cast of foundation models that generates high-quality, 1080p HD videos with different aspect ratios and synchronized audio. We also show additional capabilities such as precise instruction-based video editing and generation of personalized videos based on a user’s image. Our models set a new state-of-the-art on multiple tasks: text-to-video synthesis, video personalization, video editing, video-to-audio generation, and text-to-audio generation. Our largest video generation model is a 30B parameter transformer trained with a maximum context length of 73K video tokens, corresponding to a generated video of 16 seconds at 16 frames-per-second. We show multiple technical innovations and simplifications on the architecture, latent spaces, training objectives and recipes, data curation, evaluation protocols, parallelization techniques, and inference optimizations that allow us to reap the benefits of scaling pre-training data, model size, and training compute for training large scale media generation models. We hope this paper helps the research community to accelerate progress and innovation in media generation models. All videos from this paper are available at https://go.fb.me/MovieGenResearchVideos.

arxiv情報

著者 Adam Polyak,Amit Zohar,Andrew Brown,Andros Tjandra,Animesh Sinha,Ann Lee,Apoorv Vyas,Bowen Shi,Chih-Yao Ma,Ching-Yao Chuang,David Yan,Dhruv Choudhary,Dingkang Wang,Geet Sethi,Guan Pang,Haoyu Ma,Ishan Misra,Ji Hou,Jialiang Wang,Kiran Jagadeesh,Kunpeng Li,Luxin Zhang,Mannat Singh,Mary Williamson,Matt Le,Matthew Yu,Mitesh Kumar Singh,Peizhao Zhang,Peter Vajda,Quentin Duval,Rohit Girdhar,Roshan Sumbaly,Sai Saketh Rambhatla,Sam Tsai,Samaneh Azadi,Samyak Datta,Sanyuan Chen,Sean Bell,Sharadh Ramaswamy,Shelly Sheynin,Siddharth Bhattacharya,Simran Motwani,Tao Xu,Tianhe Li,Tingbo Hou,Wei-Ning Hsu,Xi Yin,Xiaoliang Dai,Yaniv Taigman,Yaqiao Luo,Yen-Cheng Liu,Yi-Chiao Wu,Yue Zhao,Yuval Kirstain,Zecheng He,Zijian He,Albert Pumarola,Ali Thabet,Artsiom Sanakoyeu,Arun Mallya,Baishan Guo,Boris Araya,Breena Kerr,Carleigh Wood,Ce Liu,Cen Peng,Dimitry Vengertsev,Edgar Schonfeld,Elliot Blanchard,Felix Juefei-Xu,Fraylie Nord,Jeff Liang,John Hoffman,Jonas Kohler,Kaolin Fire,Karthik Sivakumar,Lawrence Chen,Licheng Yu,Luya Gao,Markos Georgopoulos,Rashel Moritz,Sara K. Sampson,Shikai Li,Simone Parmeggiani,Steve Fine,Tara Fowler,Vladan Petrovic,Yuming Du
発行日 2024-10-17 16:22:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク