EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture

要約

本稿では、トランスフォーマ・アーキテクチャのパワーを活用し、高性能な成果を実現する先進的なビデオ生成手法であるEasyAnimateを紹介する。もともと2D画像合成用に設計されたDiTフレームワークを、モーション・モジュール・ブロックを組み込むことにより、3Dビデオ生成の複雑さに対応できるように拡張した。これは、時間的ダイナミクスをキャプチャするために使用され、それによって一貫性のあるフレームとシームレスなモーション遷移の生成を保証します。モーション・モジュールは、様々なDiTベースライン方式に適合させることができ、異なるスタイルのビデオを生成することができる。また、学習段階と推論段階の両方で、異なるフレームレートと解像度のビデオを生成することができ、画像とビデオの両方に適している。さらに、時間軸を凝縮する新しいアプローチであるスライスVAEを導入し、長時間のビデオの生成を容易にします。現在、EasyAnimateは144フレームのビデオを生成する能力を示している。データの前処理、VAEトレーニング、DiTモデルのトレーニング(ベースラインモデルとLoRAモデルの両方)、エンドツーエンドのビデオ推論などの側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供します。コードはhttps://github.com/aigc-apps/EasyAnimate。私たちは、私たちの手法のパフォーマンスを向上させるために継続的に取り組んでいます。

要約(オリジナル)

This paper presents EasyAnimate, an advanced method for video generation that leverages the power of transformer architecture for high-performance outcomes. We have expanded the DiT framework originally designed for 2D image synthesis to accommodate the complexities of 3D video generation by incorporating a motion module block. It is used to capture temporal dynamics, thereby ensuring the production of consistent frames and seamless motion transitions. The motion module can be adapted to various DiT baseline methods to generate video with different styles. It can also generate videos with different frame rates and resolutions during both training and inference phases, suitable for both images and videos. Moreover, we introduce slice VAE, a novel approach to condense the temporal axis, facilitating the generation of long duration videos. Currently, EasyAnimate exhibits the proficiency to generate videos with 144 frames. We provide a holistic ecosystem for video production based on DiT, encompassing aspects such as data pre-processing, VAE training, DiT models training (both the baseline model and LoRA model), and end-to-end video inference. Code is available at: https://github.com/aigc-apps/EasyAnimate. We are continuously working to enhance the performance of our method.

arxiv情報

著者 Jiaqi Xu,Xinyi Zou,Kunzhe Huang,Yunkuo Chen,Bo Liu,MengLi Cheng,Xing Shi,Jun Huang
発行日 2024-07-05 13:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク