要約
高い計算コストと遅い推論時間は、ビデオ拡散モデル (VDM) を実際のアプリケーションに導入する際の大きな障害となります。
これを克服するために、個々のコンテンツとモーション ダイナミクスを維持したプルーニングと一貫性の損失を使用した、新しいビデオ拡散モデル圧縮アプローチを導入します。
まず、経験的に、深い VDM レイヤーは \textbf{モーション ダイナミクス} の品質 (ビデオ全体の一貫性など) を維持するために重要であり、浅いレイヤーは \textbf{個別のコンテンツ} (個々のフレームなど) に重点を置いていることがわかります。
したがって、より深い層をより多く保持しながら、より浅い層から冗長なブロックを削除し、その結果、VDMini と呼ばれる軽量の VDM バリアントが作成されます。
さらに、より大きな VDM、つまり教師から VDMini、つまり生徒と同等の生成パフォーマンスを得るために、 \textbf{個別のコンテンツとモーション ダイナミクス (ICMD)} の一貫性損失を提案します。
特に、最初に個別コンテンツ蒸留 (ICD) 損失を使用して、教師モデルと生徒モデルの間で生成された各フレームの特徴の一貫性を確保します。
次に、生成されたビデオ全体のモーション ダイナミクスを強化するために、マルチフレーム コンテンツ敵対的 (MCA) 損失を導入します。
この方法では、高品質のビデオ生成を維持しながら、推論時間が大幅に短縮されます。
広範な実験により、Text-to-Video (T2V) と Image-to-Video (I2V) という 2 つの重要なビデオ生成タスクにおける VDMini の有効性が実証され、それぞれ平均 2.5 $\times$ と 1.4 $\times$ を達成しました。
2 つのベンチマークで生成されたビデオの品質を維持しながら、I2V 方式 SF-V と T2V 方式 T2V-Turbo-v2 の速度が向上しました。
UCF101とVBench。
要約(オリジナル)
The high computational cost and slow inference time are major obstacles to deploying the video diffusion model (VDM) in practical applications. To overcome this, we introduce a new Video Diffusion Model Compression approach using individual content and motion dynamics preserved pruning and consistency loss. First, we empirically observe that deeper VDM layers are crucial for maintaining the quality of \textbf{motion dynamics} e.g., coherence of the entire video, while shallower layers are more focused on \textbf{individual content} e.g., individual frames. Therefore, we prune redundant blocks from the shallower layers while preserving more of the deeper layers, resulting in a lightweight VDM variant called VDMini. Additionally, we propose an \textbf{Individual Content and Motion Dynamics (ICMD)} Consistency Loss to gain comparable generation performance as larger VDM, i.e., the teacher to VDMini i.e., the student. Particularly, we first use the Individual Content Distillation (ICD) Loss to ensure consistency in the features of each generated frame between the teacher and student models. Next, we introduce a Multi-frame Content Adversarial (MCA) Loss to enhance the motion dynamics across the generated video as a whole. This method significantly accelerates inference time while maintaining high-quality video generation. Extensive experiments demonstrate the effectiveness of our VDMini on two important video generation tasks, Text-to-Video (T2V) and Image-to-Video (I2V), where we respectively achieve an average 2.5 $\times$ and 1.4 $\times$ speed up for the I2V method SF-V and the T2V method T2V-Turbo-v2, while maintaining the quality of the generated videos on two benchmarks, i.e., UCF101 and VBench.
arxiv情報
著者 | Yiming Wu,Huan Wang,Zhenghao Chen,Dong Xu |
発行日 | 2024-11-27 14:22:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google