Enhancing the Rate-Distortion-Perception Flexibility of Learned Image Codecs with Conditional Diffusion Decoders

要約

学習された画像圧縮コーデックは、最近、最も効率的な画像コーディング アーキテクチャを上回る優れた圧縮パフォーマンスを達成しました。
ただし、ほとんどのアプローチはレートと歪みを最小限に抑えるようにトレーニングされており、知覚メトリクスが考慮されていないため、低ビットレートでは満足のいく視覚的結果が得られないことがよくあります。
この論文では、条件付き拡散モデルをデコーダとして使用すると、生成圧縮タスクで有望な結果が得られること、また、圧縮表現が与えられた場合、条件付き拡散モデルにより、デコーダ側で歪みと知覚の間に新しいトレードオフ ポイントを作成できることを示します。
サンプリング方法。

要約(オリジナル)

Learned image compression codecs have recently achieved impressive compression performances surpassing the most efficient image coding architectures. However, most approaches are trained to minimize rate and distortion which often leads to unsatisfactory visual results at low bitrates since perceptual metrics are not taken into account. In this paper, we show that conditional diffusion models can lead to promising results in the generative compression task when used as a decoder, and that, given a compressed representation, they allow creating new tradeoff points between distortion and perception at the decoder side based on the sampling method.

arxiv情報

著者 Daniele Mari,Simone Milani
発行日 2024-03-05 11:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク