要約
拡散モデルはその優れた性能により、画像生成の分野で目覚ましい進歩を遂げてきました。
ただし、これらのモデルは、推論中に複数ステップのノイズ除去プロセスを実行するため、大量のコンピューティング リソースを必要とします。
これらのモデルを最適化するために従来の枝刈り手法が採用されてきましたが、再トレーニング プロセスでは汎化能力を維持するために大規模なトレーニング データセットと膨大な計算コストが必要となるため、便利でも効率的でもありません。
最近の研究では、隣接するノイズ除去ステージ間の特徴の類似性を利用して、単純で静的な戦略を通じて計算コストを削減しようとしています。
ただし、これらの戦略では、隣接するタイムステップにわたる同様の特徴パターンの可能性を完全に活用することはできません。
この研究では、よりインテリジェントで微分可能なプルーナーを介して効率的な拡散モデルを導出する新しいプルーニング方法を提案します。
私たちのアプローチの中核は、モデルの枝刈りプロセスをサブネット検索プロセスにキャストすることです。
具体的には、まず、同様の機能に基づいて構築されたバックアップ接続を追加することにより、標準の普及に基づいたスーパーネットを導入します。
次に、プラグイン プルーナー ネットワークを構築し、冗長な計算を特定するための最適化損失を設計します。
最後に、私たちの方法では、数ステップの勾配最適化と簡単な後処理手順を通じて最適なサブネットを特定できます。
私たちは、安定拡散シリーズや DiT を含むさまざまな拡散モデルについて広範な実験を行っています。
当社の DiP-GO アプローチは、精度を損なうことなく SD-1.5 の 4.4 倍の高速化を達成し、以前の最先端の方法を大幅に上回ります。
要約(オリジナル)
Diffusion models have achieved remarkable progress in the field of image generation due to their outstanding capabilities. However, these models require substantial computing resources because of the multi-step denoising process during inference. While traditional pruning methods have been employed to optimize these models, the retraining process necessitates large-scale training datasets and extensive computational costs to maintain generalization ability, making it neither convenient nor efficient. Recent studies attempt to utilize the similarity of features across adjacent denoising stages to reduce computational costs through simple and static strategies. However, these strategies cannot fully harness the potential of the similar feature patterns across adjacent timesteps. In this work, we propose a novel pruning method that derives an efficient diffusion model via a more intelligent and differentiable pruner. At the core of our approach is casting the model pruning process into a SubNet search process. Specifically, we first introduce a SuperNet based on standard diffusion via adding some backup connections built upon the similar features. We then construct a plugin pruner network and design optimization losses to identify redundant computation. Finally, our method can identify an optimal SubNet through few-step gradient optimization and a simple post-processing procedure. We conduct extensive experiments on various diffusion models including Stable Diffusion series and DiTs. Our DiP-GO approach achieves 4.4 x speedup for SD-1.5 without any loss of accuracy, significantly outperforming the previous state-of-the-art methods.
arxiv情報
著者 | Haowei Zhu,Dehua Tang,Ji Liu,Mingjie Lu,Jintu Zheng,Jinzhang Peng,Dong Li,Yu Wang,Fan Jiang,Lu Tian,Spandan Tiwari,Ashish Sirasao,Jun-Hai Yong,Bin Wang,Emad Barsoum |
発行日 | 2024-10-22 12:18:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google