Lossy Image Compression with Foundation Diffusion Models

要約

画像圧縮ドメインに拡散モデルを組み込むと、特に非常に低いビットレートで、現実的で詳細な再構成が生成される可能性があります。
これまでの手法は、調整信号の量子化誤差に対して堅牢な表現力豊かなデコーダとして拡散モデルを使用することに焦点を当てていましたが、この方法で競争力のある結果を達成するには、コストのかかる拡散モデルのトレーニングと、反復生成プロセスによる長い推論時間が必要です。
この研究では、量子化誤差の除去をノイズ除去タスクとして定式化し、拡散を使用して、送信された画像潜在内の失われた情報を回復します。
私たちのアプローチでは、完全な拡散生成プロセスの 10\% 未満を実行することができ、拡散モデルへのアーキテクチャ上の変更は必要ないため、バックボーンを追加で微調整することなく基礎モデルを強力な事前分布として使用できます。
私たちが提案したコーデックは、量的リアリズム指標において以前の方法よりも優れており、他の方法が 2 倍のビットレートを使用する場合でも、再構築が定性的にエンドユーザーに好まれることを確認しています。

要約(オリジナル)

Incorporating diffusion models in the image compression domain has the potential to produce realistic and detailed reconstructions, especially at extremely low bitrates. Previous methods focus on using diffusion models as expressive decoders robust to quantization errors in the conditioning signals, yet achieving competitive results in this manner requires costly training of the diffusion model and long inference times due to the iterative generative process. In this work we formulate the removal of quantization error as a denoising task, using diffusion to recover lost information in the transmitted image latent. Our approach allows us to perform less than 10\% of the full diffusion generative process and requires no architectural changes to the diffusion model, enabling the use of foundation models as a strong prior without additional fine tuning of the backbone. Our proposed codec outperforms previous methods in quantitative realism metrics, and we verify that our reconstructions are qualitatively preferred by end users, even when other methods use twice the bitrate.

arxiv情報

著者 Lucas Relic,Roberto Azevedo,Markus Gross,Christopher Schroers
発行日 2024-04-12 16:23:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク