MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis

要約

ポートレートビデオ統合タスクのための微調整オープンソースの大規模VDMは、視覚品質や自然な顔の動きのダイナミクスなど、複数の次元にわたって大幅に改善される可能性があります。
彼らの進歩にもかかわらず、ステップ蒸留を達成し、大規模なVDMの実質的な計算オーバーヘッドを減らす方法は未開拓のままです。
このギャップを埋めるために、このペーパーでは、トレーニングメモリの不十分な問題と、トレーニングプロセス中にバニラDMDで観察されたトレーニング崩壊の問題の両方を軽減するために、弱いビデオ蒸留(W2SVD)を提案します。
具体的には、最初にLORAを活用して、偽の拡散トランス(DIT)を微調整して、メモリ外の問題に対処します。
次に、W2S分布マッチングを使用して、実際のDITのパラメーターを調整し、偽のDITのパラメーターに微妙にシフトします。
この調整は、低ランク分岐の弱い重量を利用することによって達成され、少数のジェネレーターによって合成されたビデオが実際のデータ分布から逸脱し、KL発散近似の不正確さにつながる難問を効果的に緩和します。
さらに、偽のデータ分布とグラウンドトゥルース分布との間の距離を最小限に抑えて、合成されたビデオの視覚品質をさらに向上させます。
Hunyuanvideoで実験的に実証されたように、W2SVDは、1/4ステップビデオ統合で標準オイラー、LCM、DMD、さらには28ステップの標準サンプリングを超えています。
プロジェクトページはhttps://w2svd.github.io/w2svd/にあります。

要約(オリジナル)

Fine-tuning open-source large-scale VDMs for the portrait video synthesis task can result in significant improvements across multiple dimensions, such as visual quality and natural facial motion dynamics. Despite their advancements, how to achieve step distillation and reduce the substantial computational overhead of large-scale VDMs remains unexplored. To fill this gap, this paper proposes Weak-to-Strong Video Distillation (W2SVD) to mitigate both the issue of insufficient training memory and the problem of training collapse observed in vanilla DMD during the training process. Specifically, we first leverage LoRA to fine-tune the fake diffusion transformer (DiT) to address the out-of-memory issue. Then, we employ the W2S distribution matching to adjust the real DiT’s parameter, subtly shifting it toward the fake DiT’s parameter. This adjustment is achieved by utilizing the weak weight of the low-rank branch, effectively alleviate the conundrum where the video synthesized by the few-step generator deviates from the real data distribution, leading to inaccuracies in the KL divergence approximation. Additionally, we minimize the distance between the fake data distribution and the ground truth distribution to further enhance the visual quality of the synthesized videos. As experimentally demonstrated on HunyuanVideo, W2SVD surpasses the standard Euler, LCM, DMD and even the 28-step standard sampling in FID/FVD and VBench in 1/4-step video synthesis. The project page is in https://w2svd.github.io/W2SVD/.

arxiv情報

著者 Shitong Shao,Hongwei Yi,Hanzhong Guo,Tian Ye,Daquan Zhou,Michael Lingelbach,Zhiqiang Xu,Zeke Xie
発行日 2025-03-17 15:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク