Magic 1-For-1: Generating One Minute Video Clips within One Minute

要約

このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的なビデオ生成モデルであるMagic 1-for-1(MAGIC141)を紹介します。
重要なアイデアは単純です。テキストからビデオへの生成タスクを、拡散ステップ蒸留のための2つの別々の簡単なタスク、つまりテキストからイメージの生成と画像間生成に因数分解します。
同じ最適化アルゴリズムを使用して、画像からビデオへのタスクが実際にテキストからビデオへのタスク上で収束しやすいことを確認します。
また、最適化のトリックのバッグを探索して、3つの側面から画像間(I2V)モデルをトレーニングする計算コストを削減します。1)モデルの収束速度速度マルチモーダル事前条件注入を使用して。
2)敵対的なステップ蒸留を適用することにより、推論の遅延速度を上げ、3)パラメーターのスパース化による推論メモリコストの最適化。
これらのテクニックを使用すると、3秒以内に5秒のビデオクリップを生成できます。
テスト時間スライドウィンドウを適用することにより、視覚品質とモーションダイナミクスが大幅に向上し、1分以内に1分以内に1分間のビデオを生成することができ、平均で1秒のビデオクリップを生成するために1秒未満を費やすことができます。
一連の予備調査を実施して、拡散ステップ蒸留中に計算コストとビデオの品質との最適なトレードオフを調べ、これがオープンソース探索の良い基盤モデルになることを願っています。
コードとモデルの重みは、https://github.com/da-group-pku/magic-1-for-1で入手できます。

要約(オリジナル)

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

arxiv情報

著者 Hongwei Yi,Shitong Shao,Tian Ye,Jiantong Zhao,Qingyu Yin,Michael Lingelbach,Li Yuan,Yonghong Tian,Enze Xie,Daquan Zhou
発行日 2025-02-17 02:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク