要約
テキストの説明から高忠実度のビデオを生成する需要の高まりにより、この分野での重要な研究が促進されています。
この作業では、テキストから画像へのモデル、ビデオ モーション ジェネレーター、参照画像埋め込みモジュール、フレーム補間モジュールをエンドツーエンドのビデオ生成パイプラインに統合する MagicVideo-V2 を紹介します。
これらのアーキテクチャ設計の恩恵を受けて、MagicVideo-V2 は、驚くべき忠実度と滑らかさを備えた、見た目にも美しい高解像度ビデオを生成できます。
大規模なユーザー評価により、Runway、Pika 1.0、Morph、Moon Valley、Stable Video Diffusion モデルなどの主要な Text-to-Video システムよりも優れたパフォーマンスを実証します。
要約(オリジナル)
The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.
arxiv情報
著者 | Weimin Wang,Jiawei Liu,Zhijie Lin,Jiangqiao Yan,Shuo Chen,Chetwin Low,Tuyen Hoang,Jie Wu,Jun Hao Liew,Hanshu Yan,Daquan Zhou,Jiashi Feng |
発行日 | 2024-01-09 10:12:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google