SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models

要約

テキストから画像への拡散モデル (SD) は、膨大な計算リソースを必要とする一方で、大幅な進歩を示します。
既存の高速化方法は通常、広範なトレーニングを必要とし、普遍的に適用できるわけではありません。
LCM-LoRA は、さまざまなモデルに対して一度トレーニングできるため、汎用性を提供しますが、アクセラレーションの前後で生成されたコンテンツの一貫性を確保することはほとんど考慮されていません。
この文書では、普遍性と一貫性の課題に対処する革新的な加速モジュールである SpeedUpNet (SUN) を提案します。
U-Net for SD モデルのクロスアテンション レイヤーの役割を利用して、これらのレイヤー専用に設計されたアダプターを導入し、ポジティブ プロンプトに対するネガティブ プロンプトによって引き起こされる画像生成のオフセットを定量化します。
この学習されたオフセットは、さまざまなモデルにわたって安定性を示し、SUN の汎用性を高めます。
出力の一貫性を向上させるために、オフセットを安定させ、高速化されたコンテンツの忠実性を保証するマルチステップ一貫性 (MSC) 損失を提案します。
SD v1.5 での実験では、SUN がベースラインの 25 ステップ DPM ソルバー ++ と比較して全体の 10 倍以上の高速化をもたらし、さらに 2 つの利点を提供することを示しています。 (1) トレーニング不要のさまざまな微調整された安定版への統合
拡散モデルと (2) 肯定的プロンプトと否定的プロンプトのランダムな組み合わせによる加速の前後に生成されたデータセットの最先端の FID。
コードはhttps://williechai.github.io/speedup-plugin-for-stable-diffusions.github.ioから入手できます。

要約(オリジナル)

Text-to-image diffusion models (SD) exhibit significant advancements while requiring extensive computational resources. Existing acceleration methods usually require extensive training and are not universally applicable. LCM-LoRA, trainable once for diverse models, offers universality but rarely considers ensuring the consistency of generated content before and after acceleration. This paper proposes SpeedUpNet (SUN), an innovative acceleration module, to address the challenges of universality and consistency. Exploiting the role of cross-attention layers in U-Net for SD models, we introduce an adapter specifically designed for these layers, quantifying the offset in image generation caused by negative prompts relative to positive prompts. This learned offset demonstrates stability across a range of models, enhancing SUN’s universality. To improve output consistency, we propose a Multi-Step Consistency (MSC) loss, which stabilizes the offset and ensures fidelity in accelerated content. Experiments on SD v1.5 show that SUN leads to an overall speedup of more than 10 times compared to the baseline 25-step DPM-solver++, and offers two extra advantages: (1) training-free integration into various fine-tuned Stable-Diffusion models and (2) state-of-the-art FIDs of the generated data set before and after acceleration guided by random combinations of positive and negative prompts. Code is available: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io.

arxiv情報

著者 Weilong Chai,DanDan Zheng,Jiajiong Cao,Zhiquan Chen,Changbao Wang,Chenguang Ma
発行日 2024-10-01 08:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク