要約
ビデオ拡散モデルの既存の加速手法は、多くの場合、均一なヒューリスティックまたは時間埋め込みバリアントに依存して、タイムステップをスキップしてキャッシュされた機能を再利用します。
これらのアプローチでは、通常、キュレーションされたプロンプトと、プロンプト固有の過剰適合によるリスクの一貫性のない出力を備えた広範なキャリブレーションが必要です。
この論文では、斬新で堅牢な発見を紹介します。さまざまなモデルとプロンプトにわたって観察される統一されたマグニチュード法則です。
具体的には、連続した残留出力の大きさ比は、ほとんどのタイムステップで単調にかつ着実に減少し、最後のいくつかのステップで急速に減少します。
この洞察を活用して、エラーモデリングメカニズムと適応型キャッシング戦略を使用して重要でないタイムステップを適応的にスキップするマグニチュード認識キャッシュ(Magcache)を導入します。
キャリブレーションのために数十のキュレーションされたサンプルを必要とする既存の方法とは異なり、Magcacheはキャリブレーションのために単一のサンプルのみを必要とします。
実験結果は、MagcacheがそれぞれオープンソラとWAN 2.1で2.1xおよび2.68倍のスピードアップを達成し、優れた視覚的忠実度を維持することを示しています。
同等の計算予算の下で、LPIPS、SSIM、およびPSNRの既存のメソッドを大幅に上回ります。
要約(オリジナル)
Existing acceleration techniques for video diffusion models often rely on uniform heuristics or time-embedding variants to skip timesteps and reuse cached features. These approaches typically require extensive calibration with curated prompts and risk inconsistent outputs due to prompt-specific overfitting. In this paper, we introduce a novel and robust discovery: a unified magnitude law observed across different models and prompts. Specifically, the magnitude ratio of successive residual outputs decreases monotonically and steadily in most timesteps while rapidly in the last several steps. Leveraging this insight, we introduce a Magnitude-aware Cache (MagCache) that adaptively skips unimportant timesteps using an error modeling mechanism and adaptive caching strategy. Unlike existing methods requiring dozens of curated samples for calibration, MagCache only requires a single sample for calibration. Experimental results show that MagCache achieves 2.1x and 2.68x speedups on Open-Sora and Wan 2.1, respectively, while preserving superior visual fidelity. It significantly outperforms existing methods in LPIPS, SSIM, and PSNR, under comparable computational budgets.
arxiv情報
著者 | Zehong Ma,Longhui Wei,Feng Wang,Shiliang Zhang,Qi Tian |
発行日 | 2025-06-10 17:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google