QVGen: Pushing the Limit of Quantized Video Generative Models

要約

ビデオ拡散モデル(DMS)により、高品質のビデオ統合が可能になりました。
しかし、彼らの実質的な計算とメモリの要求は、ハイエンドGPUであっても、現実世界の展開に深刻な課題をもたらします。
一般的に採用されているソリューションとして、量子化は画像DMのコストを削減することに顕著な成功を収めていますが、ビデオDMへの直接適用は依然として効果がありません。
このホワイトペーパーでは、非常に低いビット量子化(4ビット以下など)の下で高性能および推論効率の高いビデオDMに合わせた新しい量子化対応トレーニング(QAT)フレームワークであるQVGenを紹介します。
QATの収束を促進するために勾配規範を減らすことが不可欠であることを示す理論分析から始めます。
この目的のために、補助モジュール($ \ phi $)を導入して、大量の量子化エラーを緩和し、収束が大幅に向上します。
$ \ phi $の推論のオーバーヘッドを排除するために、$ \ phi $を徐々に排除するランク廃止戦略を提案します。
具体的には、低支配コンポーネントを識別および減衰させるために、特異値分解(SVD)と提案されたランクベースの正規化$ \ mathbf {\ gamma} $を繰り返し採用しています。
この戦略はパフォーマンスを保持し、推論のオーバーヘッドをゼロにします。
$ 1.3 $ $ $ \ sim14 $ bの範囲のパラメーターサイズを備えた4ドルの最先端(SOTA)ビデオDMSにまたがる広範な実験は、QVGenが4ビット設定の下で完全な程度の同等の品質に達する最初のものであることを示しています。
さらに、既存の方法を大幅に上回ります。
たとえば、3ビットのCogvideox-2Bは、動的程度で$+25.28 $、VBenchのシーンの一貫性$+8.43 $の改善を達成します。

要約(オリジナル)

Video diffusion models (DMs) have enabled high-quality video synthesis. Yet, their substantial computational and memory demands pose serious challenges to real-world deployment, even on high-end GPUs. As a commonly adopted solution, quantization has proven notable success in reducing cost for image DMs, while its direct application to video DMs remains ineffective. In this paper, we present QVGen, a novel quantization-aware training (QAT) framework tailored for high-performance and inference-efficient video DMs under extremely low-bit quantization (e.g., 4-bit or below). We begin with a theoretical analysis demonstrating that reducing the gradient norm is essential to facilitate convergence for QAT. To this end, we introduce auxiliary modules ($\Phi$) to mitigate large quantization errors, leading to significantly enhanced convergence. To eliminate the inference overhead of $\Phi$, we propose a rank-decay strategy that progressively eliminates $\Phi$. Specifically, we repeatedly employ singular value decomposition (SVD) and a proposed rank-based regularization $\mathbf{\gamma}$ to identify and decay low-contributing components. This strategy retains performance while zeroing out inference overhead. Extensive experiments across $4$ state-of-the-art (SOTA) video DMs, with parameter sizes ranging from $1.3$B $\sim14$B, show that QVGen is the first to reach full-precision comparable quality under 4-bit settings. Moreover, it significantly outperforms existing methods. For instance, our 3-bit CogVideoX-2B achieves improvements of $+25.28$ in Dynamic Degree and $+8.43$ in Scene Consistency on VBench.

arxiv情報

著者 Yushi Huang,Ruihao Gong,Jing Liu,Yifu Ding,Chengtao Lv,Haotong Qin,Jun Zhang
発行日 2025-05-16 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク