A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies

要約

安定拡散モデル (SDM) は、テキストから画像へ (T2I) および画像から画像へ (I2I) を生成するための、広く普及している効果的なモデルです。
サンプラーの最適化、モデルの蒸留、ネットワークの定量化におけるさまざまな試みにもかかわらず、これらのアプローチは通常、元のネットワーク アーキテクチャを維持します。
パラメータの規模が大きく、計算量が膨大なため、モデル アーキテクチャを調整する研究は限られています。
この研究では、SDM での冗長な計算を削減することに焦点を当て、チューニング方法とチューニングなしの方法の両方を通じてモデルを最適化します。
1) チューニング方法については、蒸留によってパフォーマンスを維持しながら軽量モデルを再構築するモデル アセンブリ戦略を設計します。
2 番目に、プルーニングによるパフォーマンスの損失を軽減するために、マルチエキスパート条件付き畳み込み (ME-CondConv) を圧縮 UNet に組み込んで、速度を犠牲にすることなく容量を増やすことでネットワーク パフォーマンスを向上させます。
第三に、ネットワーク速度を向上させるためのマルチ UNet スイッチング方式の有効性を検証します。
2) チューニングフリー手法では、ネットワーク構造内のブロック、レイヤー、またはユニットレベルでのローカル計算をスキップすることで推論を高速化する特徴継承戦略を提案します。
また、タイムステップ レベルでの特徴継承のための複数のサンプリング モードも調べます。
実験により、提案されたチューニング方法とチューニング不要の方法の両方が SDM の速度とパフォーマンスを向上できることが実証されています。
モデル アセンブリ戦略によって再構築された軽量モデルにより、生成速度が $22.4%$ 向上し、特徴継承戦略により SDM 生成速度が $40.0%$ 向上します。

要約(オリジナル)

The Stable Diffusion Model (SDM) is a prevalent and effective model for text-to-image (T2I) and image-to-image (I2I) generation. Despite various attempts at sampler optimization, model distillation, and network quantification, these approaches typically maintain the original network architecture. The extensive parameter scale and substantial computational demands have limited research into adjusting the model architecture. This study focuses on reducing redundant computation in SDM and optimizes the model through both tuning and tuning-free methods. 1) For the tuning method, we design a model assembly strategy to reconstruct a lightweight model while preserving performance through distillation. Second, to mitigate performance loss due to pruning, we incorporate multi-expert conditional convolution (ME-CondConv) into compressed UNets to enhance network performance by increasing capacity without sacrificing speed. Third, we validate the effectiveness of the multi-UNet switching method for improving network speed. 2) For the tuning-free method, we propose a feature inheritance strategy to accelerate inference by skipping local computations at the block, layer, or unit level within the network structure. We also examine multiple sampling modes for feature inheritance at the time-step level. Experiments demonstrate that both the proposed tuning and the tuning-free methods can improve the speed and performance of the SDM. The lightweight model reconstructed by the model assembly strategy increases generation speed by $22.4%$, while the feature inheritance strategy enhances the SDM generation speed by $40.0%$.

arxiv情報

著者 Jinchao Zhu,Yuxuan Wang,Siyuan Pan,Pengfei Wan,Di Zhang,Gao Huang
発行日 2024-06-04 14:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク