Adversarial Diffusion Compression for Real-World Image Super-Resolution

要約

実世界画像超解像度 (Real-ISR) は、複雑で未知のプロセスによって劣化した低解像度の入力から高解像度の画像を再構築することを目的としています。
多くの安定拡散 (SD) ベースの Real-ISR 手法は目覚ましい成功を収めていますが、その遅い複数ステップの推論が実際の展開を妨げています。
OSEDiff や S3Diff などの最近の SD ベースのワンステップ ネットワークはこの問題を軽減しますが、大規模な事前トレーニングされた SD モデルに依存するため、依然として高い計算コストが発生します。
この論文では、Adversarial Diffusion Compression (ADC) フレームワークの下で、ワンステップ拡散ネットワーク OSEDiff を合理化された拡散 GAN モデルに蒸留することにより、新しい Real-ISR メソッド AdcSR を提案します。
私たちは OSEDiff のモジュールを注意深く検査し、(1) Removable (VAE エンコーダー、プロンプト抽出、テキスト エンコーダーなど) と (2) Prunable (ノイズ除去 UNet および VAE デコーダー) の 2 つのタイプに分類します。
直接の削除とプルーニングはモデルの生成機能を低下させる可能性があるため、プルーニングされた VAE デコーダーを事前トレーニングして、画像をデコードする能力を復元し、パフォーマンスの損失を補うために敵対的蒸留を採用します。
この ADC ベースの拡散と GAN のハイブリッド設計により、モデルの生成機能を維持しながら、複雑さが推論時間で 73%、計算で 78%、パラメータで 74% 効果的に軽減されます。
実験では、私たちが提案した AdcSR が合成データセットと現実世界のデータセットの両方で競争力のある復元品質を達成し、以前の 1 ステップ拡散ベースの手法と比較して最大 9.3 倍の高速化を実現していることが明らかです。
コードとモデルは利用可能になります。

要約(オリジナル)

Real-world image super-resolution (Real-ISR) aims to reconstruct high-resolution images from low-resolution inputs degraded by complex, unknown processes. While many Stable Diffusion (SD)-based Real-ISR methods have achieved remarkable success, their slow, multi-step inference hinders practical deployment. Recent SD-based one-step networks like OSEDiff and S3Diff alleviate this issue but still incur high computational costs due to their reliance on large pretrained SD models. This paper proposes a novel Real-ISR method, AdcSR, by distilling the one-step diffusion network OSEDiff into a streamlined diffusion-GAN model under our Adversarial Diffusion Compression (ADC) framework. We meticulously examine the modules of OSEDiff, categorizing them into two types: (1) Removable (VAE encoder, prompt extractor, text encoder, etc.) and (2) Prunable (denoising UNet and VAE decoder). Since direct removal and pruning can degrade the model’s generation capability, we pretrain our pruned VAE decoder to restore its ability to decode images and employ adversarial distillation to compensate for performance loss. This ADC-based diffusion-GAN hybrid design effectively reduces complexity by 73% in inference time, 78% in computation, and 74% in parameters, while preserving the model’s generation capability. Experiments manifest that our proposed AdcSR achieves competitive recovery quality on both synthetic and real-world datasets, offering up to 9.3$\times$ speedup over previous one-step diffusion-based methods. Code and models will be made available.

arxiv情報

著者 Bin Chen,Gehui Li,Rongyuan Wu,Xindong Zhang,Jie Chen,Jian Zhang,Lei Zhang
発行日 2024-11-20 15:13:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク