Approximate Caching for Efficiently Serving Diffusion Models


拡散モデルを使用したテキストから画像への生成は、テキスト プロンプトに準拠した高品質の画像を生成できるため、爆発的な人気を博しています。
ただし、実稼働グレードの拡散モデルの提供はリソースを大量に消費するタスクであり、高価なハイエンド GPU を必要とするだけでなく、かなりの遅延も発生します。
このアイデアに基づいて、エンドツーエンドのテキストから画像へのシステムである Nirvana を紹介します。これは、新しいキャッシュ管理ポリシーである LCBFU (Least Computationally Beneficial and Frequently Used) を備えた近似キャッシュを使用して、% GPU コンピューティング節約を提供します (19.8)。
2 つの実際の運用ワークロードで、平均してエンドツーエンドのレイテンシが % 削減され、金額が 19% 節約されました。


Text-to-image generation using diffusion models has seen explosive popularity owing to their ability in producing high quality images adhering to text prompts. However, production-grade diffusion model serving is a resource intensive task that not only require high-end GPUs which are expensive but also incurs considerable latency. In this paper, we introduce a technique called approximate-caching that can reduce such iterative denoising steps for an image generation based on a prompt by reusing intermediate noise states created during a prior image generation for similar prompts. Based on this idea, we present an end to end text-to-image system, Nirvana, that uses the approximate-caching with a novel cache management-policy Least Computationally Beneficial and Frequently Used (LCBFU) to provide % GPU compute savings, 19.8% end-to-end latency reduction and 19% dollar savings, on average, on two real production workloads. We further present an extensive characterization of real production text-to-image prompts from the perspective of caching, popularity and reuse of intermediate states in a large production environment.


著者 Shubham Agarwal,Subrata Mitra,Sarthak Chakraborty,Srikrishna Karanam,Koyel Mukherjee,Shiv Saini
発行日 2023-12-07 16:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク