要約
この論文では、拡散生成モデルを使用した、エンドツーエンドで最適化された非可逆画像圧縮フレームワークの概要を説明します。
このアプローチは変換コーディング パラダイムに依存しており、画像はエントロピー コーディングのために潜在空間にマッピングされ、そこから再構築のためにデータ空間にマッピングされます。
(平均) デコーダが決定論的ニューラル ネットワークである VAE ベースのニューラル圧縮とは対照的に、私たちのデコーダは条件付き拡散モデルです。
したがって、私たちのアプローチでは、逆拡散プロセスが条件付けされる追加の「コンテンツ」潜在変数を導入し、この変数を使用して画像に関する情報を保存します。
拡散プロセスを特徴付ける残りの「テクスチャ」変数は、デコード時に合成されます。
モデルのパフォーマンスを、関心のある知覚指標に合わせて調整できることを示します。
複数のデータセットと画質評価メトリクスを含む広範な実験により、私たちのアプローチが GAN ベースのモデルよりも強力な FID スコアを報告すると同時に、いくつかの歪みメトリクスにおいて VAE ベースのモデルと競合するパフォーマンスが得られることが示されました。
さらに、$\mathcal{X}$-parameterization を使用して拡散をトレーニングすると、わずかな復号ステップで高品質の再構成が可能になり、モデルの実用性に大きな影響を与えます。
コードは \url{https://github.com/buggyyang/CDC_compression} で入手できます。
要約(オリジナル)
This paper outlines an end-to-end optimized lossy image compression framework using diffusion generative models. The approach relies on the transform coding paradigm, where an image is mapped into a latent space for entropy coding and, from there, mapped back to the data space for reconstruction. In contrast to VAE-based neural compression, where the (mean) decoder is a deterministic neural network, our decoder is a conditional diffusion model. Our approach thus introduces an additional “content” latent variable on which the reverse diffusion process is conditioned and uses this variable to store information about the image. The remaining “texture” variables characterizing the diffusion process are synthesized at decoding time. We show that the model’s performance can be tuned toward perceptual metrics of interest. Our extensive experiments involving multiple datasets and image quality assessment metrics show that our approach yields stronger reported FID scores than the GAN-based model, while also yielding competitive performance with VAE-based models in several distortion metrics. Furthermore, training the diffusion with $\mathcal{X}$-parameterization enables high-quality reconstructions in only a handful of decoding steps, greatly affecting the model’s practicality. Our code is available at: \url{https://github.com/buggyyang/CDC_compression}
arxiv情報
著者 | Ruihan Yang,Stephan Mandt |
発行日 | 2023-12-30 15:18:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google