Fast Sampling Through The Reuse Of Attention Maps In Diffusion Models

要約

テキストから画像への拡散モデルは、柔軟でリアルな画像合成のための前例のない機能を実証しました。
それにもかかわらず、これらのモデルは時間のかかるサンプリング手順に依存しているため、レイテンシを短縮しようとする試みが動機付けられています。
効率を向上させる場合、研究者は多くの場合、元の拡散モデルを使用して、高速画像生成用に特別に設計された追加のネットワークをトレーニングします。
対照的に、私たちのアプローチは、再トレーニング、微調整、または知識の蒸留を行わずに、レイテンシーを直接削減することを目指しています。
特に、アテンション マップの繰り返し計算はコストがかかる上に冗長であることがわかり、代わりにサンプリング中にアテンション マップを再利用することを提案します。
私たちの具体的な再利用戦略は ODE 理論に基づいています。これは、マップが後で再利用されるほど、最終画像の歪みが小さくなるということを意味します。
これらの再利用戦略を、同等の待ち時間の数ステップのサンプリング手順と経験的に比較し、再利用により、元の高待ち時間の拡散モデルによって生成された画像に近い画像が生成されることがわかりました。

要約(オリジナル)

Text-to-image diffusion models have demonstrated unprecedented capabilities for flexible and realistic image synthesis. Nevertheless, these models rely on a time-consuming sampling procedure, which has motivated attempts to reduce their latency. When improving efficiency, researchers often use the original diffusion model to train an additional network designed specifically for fast image generation. In contrast, our approach seeks to reduce latency directly, without any retraining, fine-tuning, or knowledge distillation. In particular, we find the repeated calculation of attention maps to be costly yet redundant, and instead suggest reusing them during sampling. Our specific reuse strategies are based on ODE theory, which implies that the later a map is reused, the smaller the distortion in the final image. We empirically compare these reuse strategies with few-step sampling procedures of comparable latency, finding that reuse generates images that are closer to those produced by the original high-latency diffusion model.

arxiv情報

著者 Rosco Hunter,Łukasz Dudziak,Mohamed S. Abdelfattah,Abhinav Mehrotra,Sourav Bhattacharya,Hongkai Wen
発行日 2024-05-24 16:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク