Approximate Caching for Efficiently Serving Diffusion Models

要約

拡散モデルを使用したテキストから画像への生成は、テキスト プロンプトに準拠した高品質の画像を生成できるため、爆発的な人気を博しています。
ただし、実稼働グレードの拡散モデルの提供はリソースを大量に消費するタスクであり、高価なハイエンド GPU を必要とするだけでなく、かなりの遅延も発生します。
この論文では、同様のプロンプトに対する以前の画像生成中に作成された中間ノイズ状態を再利用することにより、プロンプトに基づく画像生成のこのような反復的なノイズ除去ステップを削減できる近似キャッシュと呼ばれる手法を紹介します。
このアイデアに基づいて、エンドツーエンドのテキストから画像へのシステムである Nirvana を紹介します。これは、新しいキャッシュ管理ポリシーである LCBFU (Least Computationally Beneficial and Frequently Used) を備えた近似キャッシュを使用して、% GPU コンピューティング節約を提供します (19.8)。
2 つの実際の運用ワークロードで、平均してエンドツーエンドのレイテンシが % 削減され、金額が 19% 節約されました。
さらに、大規模な運用環境における中間状態のキャッシュ、人気、再利用の観点から、実際の運用中のテキストから画像へのプロンプトの広範な特徴付けを示します。

要約(オリジナル)

Text-to-image generation using diffusion models has seen explosive popularity owing to their ability in producing high quality images adhering to text prompts. However, production-grade diffusion model serving is a resource intensive task that not only require high-end GPUs which are expensive but also incurs considerable latency. In this paper, we introduce a technique called approximate-caching that can reduce such iterative denoising steps for an image generation based on a prompt by reusing intermediate noise states created during a prior image generation for similar prompts. Based on this idea, we present an end to end text-to-image system, Nirvana, that uses the approximate-caching with a novel cache management-policy Least Computationally Beneficial and Frequently Used (LCBFU) to provide % GPU compute savings, 19.8% end-to-end latency reduction and 19% dollar savings, on average, on two real production workloads. We further present an extensive characterization of real production text-to-image prompts from the perspective of caching, popularity and reuse of intermediate states in a large production environment.

arxiv情報

著者 Shubham Agarwal,Subrata Mitra,Sarthak Chakraborty,Srikrishna Karanam,Koyel Mukherjee,Shiv Saini
発行日 2023-12-07 16:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク