Extreme Image Compression using Fine-tuned VQGANs

要約

生成圧縮方式の最近の進歩により、特にビットレートが低いシナリオにおいて、圧縮データの知覚品質の向上において目覚ましい進歩が見られます。
ただし、極端な圧縮率 ($<0.05$ bpp) を達成するためのそれらの有効性と適用性には依然として制約があります。 この研究では、ベクトル量子化 (VQ) ベースの生成モデルを画像圧縮ドメインに導入することにより、シンプルかつ効果的なコーディング フレームワークを提案します。 主な洞察は、VQGAN モデルによって学習されたコードブックが強力な表現能力をもたらし、再構築の品質を維持しながら潜在空間内の連続情報の効率的な圧縮を促進するということです。 具体的には、画像は、最も近いコードワードを見つけることによって VQ インデックスとして表現でき、可逆圧縮方式を使用してビットストリームにエンコードできます。 私たちは、K-means アルゴリズムを通じて事前トレーニングされた大規模なコードブックをより小さなコードブックにクラスタリングし、コーディング フレームワーク内で可変ビットレートとさまざまなレベルの再構築品質を実現することを提案します。 さらに、失われたインデックスを予測し、不安定な環境で画像を復元するためのトランスフォーマーを導入します。 さまざまなベンチマーク データセットに対する広範な定性的および定量的な実験により、提案されたフレームワークが、知覚品質指向のメトリクスと非常に低いビットレート ($\le 0.04$ bpp) での人間の知覚の点で最先端のコーデックよりも優れていることが実証されました。 驚くべきことに、最大 $20\%$ のインデックスが失われた場合でも、知覚的な損失を最小限に抑えて画像を効果的に復元できます。

要約(オリジナル)

Recent advances in generative compression methods have demonstrated remarkable progress in enhancing the perceptual quality of compressed data, especially in scenarios with low bitrates. However, their efficacy and applicability to achieve extreme compression ratios ($<0.05$ bpp) remain constrained. In this work, we propose a simple yet effective coding framework by introducing vector quantization (VQ)--based generative models into the image compression domain. The main insight is that the codebook learned by the VQGAN model yields a strong expressive capacity, facilitating efficient compression of continuous information in the latent space while maintaining reconstruction quality. Specifically, an image can be represented as VQ-indices by finding the nearest codeword, which can be encoded using lossless compression methods into bitstreams. We propose clustering a pre-trained large-scale codebook into smaller codebooks through the K-means algorithm, yielding variable bitrates and different levels of reconstruction quality within the coding framework. Furthermore, we introduce a transformer to predict lost indices and restore images in unstable environments. Extensive qualitative and quantitative experiments on various benchmark datasets demonstrate that the proposed framework outperforms state-of-the-art codecs in terms of perceptual quality-oriented metrics and human perception at extremely low bitrates ($\le 0.04$ bpp). Remarkably, even with the loss of up to $20\%$ of indices, the images can be effectively restored with minimal perceptual loss.

arxiv情報

著者 Qi Mao,Tinghan Yang,Yinuo Zhang,Zijian Wang,Meng Wang,Shiqi Wang,Siwei Ma
発行日 2023-12-15 14:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク