Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior

要約

非常に低いビットレート (0.1 ビット/ピクセル (bpp) 未満) で画像を圧縮することは、大量の情報が失われるため、大きな課題となります。
既存の極端な画像圧縮方法は一般に、大きな圧縮アーティファクトや忠実度の低い再構成の問題を抱えています。
この問題に対処するために、圧縮 VAE と事前トレーニングされたテキストから画像への拡散モデルをエンドツーエンドで組み合わせた、新しい極端な画像圧縮フレームワークを提案します。
具体的には、圧縮 VAE に基づいた潜在的な機能ガイド付き圧縮モジュールを導入します。
このモジュールは画像を圧縮し、最初に圧縮された情報をコンテンツ変数にデコードします。
コンテンツ変数と拡散空間の間の調整を強化するために、中間特徴マップを調整するための外部ガイダンスを導入します。
続いて、事前トレーニングされた拡散モデルを利用してこれらのコンテンツ変数をさらにデコードする条件付き拡散デコード モジュールを開発します。
事前トレーニングされた拡散モデルの生成機能を維持するために、パラメータを固定し、制御モジュールを使用してコンテンツ情報を注入します。
また、潜在的な特徴に基づく圧縮モジュールに十分な制約を提供するために、空間アライメント損失も設計します。
広範な実験により、私たちの方法が、非常に低いビットレートでの視覚パフォーマンスと画像忠実度の両方の点で最先端のアプローチよりも優れていることが実証されました。

要約(オリジナル)

Compressing images at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. Existing extreme image compression methods generally suffer from heavy compression artifacts or low-fidelity reconstructions. To address this problem, we propose a novel extreme image compression framework that combines compressive VAEs and pre-trained text-to-image diffusion models in an end-to-end manner. Specifically, we introduce a latent feature-guided compression module based on compressive VAEs. This module compresses images and initially decodes the compressed information into content variables. To enhance the alignment between content variables and the diffusion space, we introduce external guidance to modulate intermediate feature maps. Subsequently, we develop a conditional diffusion decoding module that leverages pre-trained diffusion models to further decode these content variables. To preserve the generative capability of pre-trained diffusion models, we keep their parameters fixed and use a control module to inject content information. We also design a space alignment loss to provide sufficient constraints for the latent feature-guided compression module. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches in terms of both visual performance and image fidelity at extremely low bitrates.

arxiv情報

著者 Zhiyuan Li,Yanhui Zhou,Hao Wei,Chenyang Ge,Jingwen Jiang
発行日 2024-04-29 16:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク