Improving Statistical Fidelity for Neural Image Compression with Implicit Local Likelihood Models

要約

非可逆画像圧縮は、オリジナルの忠実度を維持しながら、できるだけ少ないビット数で画像を表現することを目的としています。
理論的な結果は、PSNR や MS-SSIM などの歪みメトリックを最適化すると、元の画像の統計と再構成の統計に必然的に不一致が生じることを示しています。特に低ビットレートでは、圧縮された画像のぼやけによってしばしば明らかになります。
以前の研究では、敵対的識別器を活用して統計的忠実度を向上させてきました。
しかし、生成モデリング タスクから採用されたこれらのバイナリ ディスクリミネータは、画像圧縮には理想的ではない場合があります。
このホワイト ペーパーでは、VQ-VAE オートエンコーダーを介して取得された量子化されたローカル イメージ表現を条件とする非バイナリ ディスクリミネーターを紹介します。
CLIC2020、DIV2K、および Kodak データセットに対する当社の評価は、最先端の HiFiC モデルよりも、当社のディスクリミネーターが歪み (PSNR など) と統計的忠実度 (FID など) を組み合わせて最適化するのにより効果的であることを示しています。
CLIC2020 テスト セットでは、30 ~ 40% 少ないビット数で HiFiC と同じ FID を取得しています。

要約(オリジナル)

Lossy image compression aims to represent images in as few bits as possible while maintaining fidelity to the original. Theoretical results indicate that optimizing distortion metrics such as PSNR or MS-SSIM necessarily leads to a discrepancy in the statistics of original images from those of reconstructions, in particular at low bitrates, often manifested by the blurring of the compressed images. Previous work has leveraged adversarial discriminators to improve statistical fidelity. Yet these binary discriminators adopted from generative modeling tasks may not be ideal for image compression. In this paper, we introduce a non-binary discriminator that is conditioned on quantized local image representations obtained via VQ-VAE autoencoders. Our evaluations on the CLIC2020, DIV2K and Kodak datasets show that our discriminator is more effective for jointly optimizing distortion (e.g., PSNR) and statistical fidelity (e.g., FID) than the state-of-the-art HiFiC model. On the CLIC2020 test set, we obtain the same FID as HiFiC with 30-40% fewer bits.

arxiv情報

著者 Matthew J. Muckley,Alaaeldin El-Nouby,Karen Ullrich,Hervé Jégou,Jakob Verbeek
発行日 2023-01-26 15:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IT, eess.IV, math.IT パーマリンク