Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder

要約

拡散モデルによって生成された画像は、優れた知覚品質を実現できます。
ただし、拡散モデルで歪みを保証することは困難であるため、拡散モデルと画像圧縮モデルの統合には、さらに包括的な検討が必要です。
この論文では、補正として特権的なエンドツーエンド デコーダ モデルを使用する拡散ベースの画像圧縮方法を紹介します。これにより、歪みをある程度保証しながら、より優れた知覚品質を実現します。
私たちは拡散モデルを構築し、拡散モデルとエンドツーエンドのデコーダを組み合わせた新しいパラダイムを設計します。エンドツーエンドのデコーダはエンコーダ側で抽出された特権情報の送信を担当します。
具体的には、元の画像を可視化した状態で、エンコーダ側での拡散モデルの再構成プロセスを理論的に解析します。
分析に基づいて、エンコーダでのスコア関数 $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ のより適切な近似を提供するために、エンドツーエンドの畳み込みデコーダを導入します。
サイドに配置し、コンビネーションを効果的に伝達します。
実験により、以前の知覚圧縮方法と比較して、歪みと知覚の両方において私たちの方法が優れていることが実証されました。

要約(オリジナル)

The images produced by diffusion models can attain excellent perceptual quality. However, it is challenging for diffusion models to guarantee distortion, hence the integration of diffusion models and image compression models still needs more comprehensive explorations. This paper presents a diffusion-based image compression method that employs a privileged end-to-end decoder model as correction, which achieves better perceptual quality while guaranteeing the distortion to an extent. We build a diffusion model and design a novel paradigm that combines the diffusion model and an end-to-end decoder, and the latter is responsible for transmitting the privileged information extracted at the encoder side. Specifically, we theoretically analyze the reconstruction process of the diffusion models at the encoder side with the original images being visible. Based on the analysis, we introduce an end-to-end convolutional decoder to provide a better approximation of the score function $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ at the encoder side and effectively transmit the combination. Experiments demonstrate the superiority of our method in both distortion and perception compared with previous perceptual compression methods.

arxiv情報

著者 Yiyang Ma,Wenhan Yang,Jiaying Liu
発行日 2024-05-02 13:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク