Clockwork Diffusion: Efficient Generation With Model-Step Distillation

要約

この取り組みは、テキストから画像への拡散モデルの効率を向上させることを目的としています。
拡散モデルでは、すべての生成ステップで計算コストの高い UNet ベースのノイズ除去操作が使用されますが、すべての操作が最終出力品質に同等に関連しているわけではないことがわかりました。
特に、高解像度の特徴マップ上で動作する UNet 層は小さな摂動に対して比較的敏感であることが観察されています。
対照的に、低解像度の特徴マップは最終画像のセマンティック レイアウトに影響を与え、多くの場合、出力に目立った変化がないまま混乱する可能性があります。
この観察に基づいて、我々は、先行するノイズ除去ステップの計算を定期的に再利用して、後続の 1 つ以上のステップで低解像度の特徴マップを近似する方法である時計じかけ拡散を提案します。
複数のベースライン、およびテキストから画像への生成と画像編集の両方について、Clockwork が計算の複雑さを大幅に軽減しながら、同等または向上した知覚スコアにつながることを実証します。
例として、8 つの DPM++ ステップを備えた Stable Diffusion v1.5 では、FID と CLIP の変更が無視できる程度で FLOP の 32% が節約されます。

要約(オリジナル)

This work aims to improve the efficiency of text-to-image diffusion models. While diffusion models use computationally expensive UNet-based denoising operations in every generation step, we identify that not all operations are equally relevant for the final output quality. In particular, we observe that UNet layers operating on high-res feature maps are relatively sensitive to small perturbations. In contrast, low-res feature maps influence the semantic layout of the final image and can often be perturbed with no noticeable change in the output. Based on this observation, we propose Clockwork Diffusion, a method that periodically reuses computation from preceding denoising steps to approximate low-res feature maps at one or more subsequent steps. For multiple baselines, and for both text-to-image generation and image editing, we demonstrate that Clockwork leads to comparable or improved perceptual scores with drastically reduced computational complexity. As an example, for Stable Diffusion v1.5 with 8 DPM++ steps we save 32% of FLOPs with negligible FID and CLIP change.

arxiv情報

著者 Amirhossein Habibian,Amir Ghodrati,Noor Fathima,Guillaume Sautiere,Risheek Garrepalli,Fatih Porikli,Jens Petersen
発行日 2024-02-20 14:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク