ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

要約

注意メカニズムは画像拡散モデルにとって重要ですが、二次計算の複雑さにより、妥当な時間とメモリの制約内で処理できる画像のサイズが制限されます。
この論文では、生成画像モデルにおける高密度の注意の重要性について調査します。生成画像モデルには冗長な特徴が含まれることが多く、より疎な注意メカニズムに適しています。
私たちは、キー トークンと値トークンのトークン ダウンサンプリングに依存して、安定拡散推論を一般的なサイズで最大 2 倍、2048×2048 のような高解像度で最大 4.5 倍以上高速化する、トレーニング不要の新しい ToDo メソッドを提案します。
効率的なスループットと忠実度のバランスにおいて、私たちのアプローチが以前の方法よりも優れていることを実証します。

要約(オリジナル)

Attention mechanism has been crucial for image diffusion models, however, their quadratic computational complexity limits the sizes of images we can process within reasonable time and memory constraints. This paper investigates the importance of dense attention in generative image models, which often contain redundant features, making them suitable for sparser attention mechanisms. We propose a novel training-free method ToDo that relies on token downsampling of key and value tokens to accelerate Stable Diffusion inference by up to 2x for common sizes and up to 4.5x or more for high resolutions like 2048×2048. We demonstrate that our approach outperforms previous methods in balancing efficient throughput and fidelity.

arxiv情報

著者 Ethan Smith,Nayan Saxena,Aninda Saha
発行日 2024-02-28 18:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク