Diffusion-based Extreme Image Compression with Compressed Feature Initialization

要約

拡散に基づく極端な画像圧縮法は、極めて低いビットレートで印象的な性能を達成してきた。しかし、純粋なノイズから始まる反復的なノイズ除去処理に制約され、これらの方法は忠実性と効率の両方において限界がある。これら2つの問題に対処するために、我々は、圧縮された特徴初期化と残差拡散を活用するRelay Residual Diffusion Extreme Image Compression (RDEIC)を発表する。具体的には、まず、ノイズ除去プロセスの不要な初期段階を排除するために、純粋なノイズではなく、ノイズが付加された画像の圧縮された潜在特徴を出発点として使用する。次に、付加ノイズと圧縮潜在特徴量とターゲット潜在特徴量の間の残差を繰り返し除去することにより、生画像を再構成する新しいリレー残差拡散を設計する。特筆すべきは、我々のリレー残差拡散ネットワークは、事前に訓練された安定拡散をシームレスに統合し、その頑健な生成能力を活用して高品質な再構成を行うことである。第三に、学習段階と推論段階の間の不一致を解消し、再構成品質をさらに向上させるために、固定段階の微調整戦略を提案する。広範な実験により、提案するRDEICが最先端の視覚的品質を達成し、忠実度と効率の両方において既存の拡散ベースの極端な画像圧縮法を凌駕することを実証する。ソースコードはhttps://github.com/huai-chang/RDEIC。

要約(オリジナル)

Diffusion-based extreme image compression methods have achieved impressive performance at extremely low bitrates. However, constrained by the iterative denoising process that starts from pure noise, these methods are limited in both fidelity and efficiency. To address these two issues, we present Relay Residual Diffusion Extreme Image Compression (RDEIC), which leverages compressed feature initialization and residual diffusion. Specifically, we first use the compressed latent features of the image with added noise, instead of pure noise, as the starting point to eliminate the unnecessary initial stages of the denoising process. Second, we design a novel relay residual diffusion that reconstructs the raw image by iteratively removing the added noise and the residual between the compressed and target latent features. Notably, our relay residual diffusion network seamlessly integrates pre-trained stable diffusion to leverage its robust generative capability for high-quality reconstruction. Third, we propose a fixed-step fine-tuning strategy to eliminate the discrepancy between the training and inference phases, further improving the reconstruction quality. Extensive experiments demonstrate that the proposed RDEIC achieves state-of-the-art visual quality and outperforms existing diffusion-based extreme image compression methods in both fidelity and efficiency. The source code will be provided in https://github.com/huai-chang/RDEIC.

arxiv情報

著者 Zhiyuan Li,Yanhui Zhou,Hao Wei,Chenyang Ge,Ajmal Mian
発行日 2024-10-03 16:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク