Cache Me if You Can: Accelerating Diffusion Models through Block Caching

要約

拡散モデルは、写真のようにリアルな画像を生成できるため、最近画像合成の分野に革命をもたらしました。
ただし、拡散モデルの大きな欠点の 1 つは、画像生成プロセスにコストがかかることです。
ランダム ノイズから画像を反復的に改善するには、大規模な画像間ネットワークを何度も適用する必要があります。
最近の多くの研究では、必要なステップの数を減らすための手法が提案されていますが、一般に、基礎となるノイズ除去ネットワークをブラック ボックスとして扱います。
この研究では、ネットワーク内の層の動作を調査し、1) 層の出力が時間の経過とともに滑らかに変化すること、2) 層が明確な変化パターンを示すこと、3) ステップごとの変化が非常に大きくなることが多いことを発見しました。
小さい。
ノイズ除去ネットワーク内の多くの層の計算は冗長であると仮説を立てます。
これを活用して、ブロック キャッシングを導入します。これにより、前のステップのレイヤー ブロックからの出力を再利用して推論を高速化します。
さらに、タイムステップごとの各ブロックの変化に基づいてキャッシュスケジュールを自動的に決定する手法を提案します。
私たちの実験では、FID、人間による評価、定性分析を通じて、ブロック キャッシュにより同じ計算コストでより高い視覚品質の画像を生成できることを示しました。
これをさまざまな最先端のモデル (LDM と EMU) とソルバー (DDIM と DPM) で実証します。

要約(オリジナル)

Diffusion models have recently revolutionized the field of image synthesis due to their ability to generate photorealistic images. However, one of the major drawbacks of diffusion models is that the image generation process is costly. A large image-to-image network has to be applied many times to iteratively refine an image from random noise. While many recent works propose techniques to reduce the number of required steps, they generally treat the underlying denoising network as a black box. In this work, we investigate the behavior of the layers within the network and find that 1) the layers’ output changes smoothly over time, 2) the layers show distinct patterns of change, and 3) the change from step to step is often very small. We hypothesize that many layer computations in the denoising network are redundant. Leveraging this, we introduce block caching, in which we reuse outputs from layer blocks of previous steps to speed up inference. Furthermore, we propose a technique to automatically determine caching schedules based on each block’s changes over timesteps. In our experiments, we show through FID, human evaluation and qualitative analysis that Block Caching allows to generate images with higher visual quality at the same computational cost. We demonstrate this for different state-of-the-art models (LDM and EMU) and solvers (DDIM and DPM).

arxiv情報

著者 Felix Wimbauer,Bichen Wu,Edgar Schoenfeld,Xiaoliang Dai,Ji Hou,Zijian He,Artsiom Sanakoyeu,Peizhao Zhang,Sam Tsai,Jonas Kohler,Christian Rupprecht,Daniel Cremers,Peter Vajda,Jialiang Wang
発行日 2024-01-12 09:26:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク