Token Merging for Fast Stable Diffusion

要約

画像生成の風景は、オープンな語彙拡散モデルによって永遠に変わりました。
ただし、これらのモデルの核となる部分では変圧器が使用されているため、生成が遅くなります。
これらのトランスフォーマーのスループットを向上させるためのより優れた実装が登場しましたが、それでもモデル全体が評価されます。
この論文では、代わりに、冗長なトークンをマージすることにより、生成された画像の自然な冗長性を利用することにより、拡散モデルを高速化します。
Token Merging (ToMe) にいくつかの拡散固有の改善を行った後、当社の ToMe for Stable Diffusion は既存の Stable Diffusion モデルのトークン数を最大 60% 削減しながら、追加のトレーニングなしで高品質の画像を生成できます。
その過程で、画像生成を最大 2 倍高速化し、メモリ消費を最大 5.6 倍削減します。
さらに、この高速化は xFormers などの効率的な実装と積み重なり、品質への影響を最小限に抑えながら、大きな画像の場合は最大 5.4 倍高速になります。
コードは https://github.com/dbolya/tomesd で入手できます。

要約(オリジナル)

The landscape of image generation has been forever changed by open vocabulary diffusion models. However, at their core these models use transformers, which makes generation slow. Better implementations to increase the throughput of these transformers have emerged, but they still evaluate the entire model. In this paper, we instead speed up diffusion models by exploiting natural redundancy in generated images by merging redundant tokens. After making some diffusion-specific improvements to Token Merging (ToMe), our ToMe for Stable Diffusion can reduce the number of tokens in an existing Stable Diffusion model by up to 60% while still producing high quality images without any extra training. In the process, we speed up image generation by up to 2x and reduce memory consumption by up to 5.6x. Furthermore, this speed-up stacks with efficient implementations such as xFormers, minimally impacting quality while being up to 5.4x faster for large images. Code is available at https://github.com/dbolya/tomesd.

arxiv情報

著者 Daniel Bolya,Judy Hoffman
発行日 2023-03-30 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク