要約
拡散モデルは、画像とビデオ生成に広く使用されている生成モデルの強力なファミリーを表しています。
ただし、時間のかかる展開、長い推論時間、および大規模なメモリの要件は、リソースが制約されたデバイスでアプリケーションを妨げます。
この論文では、拡散モデルの展開効率を改善するための改善されたストレートスルー推定器に基づいた方法を提案します。
具体的には、事前に訓練された拡散モデルの畳み込みと線形層にスパースマスクを追加し、微調整段階でスパースモデルを学習し、推論中にスパースマスクをオンにします。
トランスとUNETベースの拡散モデルの実験結果は、FIDを維持しながら、この方法がMacを50%減らすことを示しています。
まばらなモデルは、GPUで約1.2倍に加速されます。
他のMac条件下では、FIDも他の方法と比較して1未満です。
要約(オリジナル)
Diffusion models represent a powerful family of generative models widely used for image and video generation. However, the time-consuming deployment, long inference time, and requirements on large memory hinder their applications on resource constrained devices. In this paper, we propose a method based on the improved Straight-Through Estimator to improve the deployment efficiency of diffusion models. Specifically, we add sparse masks to the Convolution and Linear layers in a pre-trained diffusion model, then transfer learn the sparse model during the fine-tuning stage and turn on the sparse masks during inference. Experimental results on a Transformer and UNet-based diffusion models demonstrate that our method reduces MACs by 50% while maintaining FID. Sparse models are accelerated by approximately 1.2x on the GPU. Under other MACs conditions, the FID is also lower than 1 compared to other methods.
arxiv情報
著者 | Kafeng Wang,Jianfei Chen,He Li,Zhenpeng Mi,Jun Zhu |
発行日 | 2025-04-17 16:05:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google