PSC: Posterior Sampling-Based Compression

要約

拡散モデルは、画像生成の景観を変換し、イメージ圧縮の顕著な可能性を示しています。
最近の拡散ベースの圧縮方法のほとんどは、トレーニングが必要であり、特定のビットレートに合わせて調整されています。
この作業では、事前に訓練された拡散モデルを唯一のニューラルネットワークコンポーネントとして活用するゼロショット圧縮法である後期サンプリングベースの圧縮(PSC)を提案します。
私たちのアプローチは、いくつかの事前に選択された変換ドメインで画像をエンコードする変換コーディングメソッドに触発されています。
ただし、PSCは画像に適応する変換を構築します。
これは、変換マトリックスの行を徐々に構築するために、ゼロショット拡散ベースの後部サンプラーを使用することによって行われます。
これまでに収集された量子化された測定値を考慮して、画像に関する不確実性を減らすために、行の新しい塊が選択されています。
重要なことに、同じ適応スキームをデコーダーで複製できるため、変換自体をエンコードする必要性を回避できます。
基本的な量子化とエントロピーコーディングがあっても、PSCのパフォーマンスは、速度、歪み、および知覚品質の点で確立されたトレーニングベースの方法に匹敵することを実証します。
これは、より大きな柔軟性を提供しながら、目的の速度または歪みを推論時に選択することができます。

要約(オリジナル)

Diffusion models have transformed the landscape of image generation and now show remarkable potential for image compression. Most of the recent diffusion-based compression methods require training and are tailored for a specific bit-rate. In this work, we propose Posterior Sampling-based Compression (PSC) – a zero-shot compression method that leverages a pre-trained diffusion model as its sole neural network component, thus enabling the use of diverse, publicly available models without additional training. Our approach is inspired by transform coding methods, which encode the image in some pre-chosen transform domain. However, PSC constructs a transform that is adaptive to the image. This is done by employing a zero-shot diffusion-based posterior sampler so as to progressively construct the rows of the transform matrix. Each new chunk of rows is chosen to reduce the uncertainty about the image given the quantized measurements collected thus far. Importantly, the same adaptive scheme can be replicated at the decoder, thus avoiding the need to encode the transform itself. We demonstrate that even with basic quantization and entropy coding, PSC’s performance is comparable to established training-based methods in terms of rate, distortion, and perceptual quality. This is while providing greater flexibility, allowing to choose at inference time any desired rate or distortion.

arxiv情報

著者 Noam Elata,Tomer Michaeli,Michael Elad
発行日 2025-02-05 14:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク