Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models

要約

画像編集の際、既存の深層生成モデルでは、未編集の領域を含む出力全体をゼロから再合成する傾向があります。これは、特に細かい編集作業において、大きな計算の浪費につながる。本研究では、編集された領域に対して選択的に計算を行い、条件付きGANや拡散モデルなどの様々な生成モデルを高速化する汎用的な手法であるSpatially Sparse Inference(SSI)を提案します。私たちは、ユーザーが入力画像に徐々に変更を加えていく傾向があることに着目しました。このため、元画像の特徴マップをキャッシュし、再利用する動機付けとなる。編集された画像が与えられると、編集された領域には畳み込みフィルタをまばらに適用し、編集されていない領域にはキャッシュされた特徴量を再利用する。さらに、本アルゴリズムに基づき、既製のハードウェアで計算量の削減を待ち時間の短縮に変換するSparse Incremental Generative Engine (SIGE)を提案する。1.2%領域の編集領域では、視覚的な忠実度を維持しながら、DDIMの計算量を7.5$times$、GauGANの計算量を18$times$減少させることができた。また,SIGEを用いることで,DDIMをRTX 3090で3.0x,Apple M1 Pro CPUで6.6$times$,GauGANをRTX 3090で4.2$times$,Apple M1 Pro CPUで14$times$加速させることに成功した.

要約(オリジナル)

During image editing, existing deep generative models tend to re-synthesize the entire output from scratch, including the unedited regions. This leads to a significant waste of computation, especially for minor editing operations. In this work, we present Spatially Sparse Inference (SSI), a general-purpose technique that selectively performs computation for edited regions and accelerates various generative models, including both conditional GANs and diffusion models. Our key observation is that users tend to make gradual changes to the input image. This motivates us to cache and reuse the feature maps of the original image. Given an edited image, we sparsely apply the convolutional filters to the edited regions while reusing the cached features for the unedited regions. Based on our algorithm, we further propose Sparse Incremental Generative Engine (SIGE) to convert the computation reduction to latency reduction on off-the-shelf hardware. With 1.2%-area edited regions, our method reduces the computation of DDIM by 7.5$\times$ and GauGAN by 18$\times$ while preserving the visual fidelity. With SIGE, we accelerate the speed of DDIM by 3.0x on RTX 3090 and 6.6$\times$ on Apple M1 Pro CPU, and GauGAN by 4.2$\times$ on RTX 3090 and 14$\times$ on Apple M1 Pro CPU.

arxiv情報

著者 Muyang Li,Ji Lin,Chenlin Meng,Stefano Ermon,Song Han,Jun-Yan Zhu
発行日 2022-11-03 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク