Image Compression with Product Quantized Masked Image Modeling

要約

最近のニューラル圧縮方法は、一般的なハイパープライオリティ フレームワークに基づいています。
スカラー量子化に依存し、非常に強力な圧縮パフォーマンスを提供します。
これは、ベクトル量子化がより一般的に採用されている画像生成と表現学習の最近の進歩とは対照的です。
この作業では、画像圧縮のためのベクトル量子化を再検討することにより、これらの研究ラインを近づけようとします。
VQ-VAE フレームワークに基づいて構築し、いくつかの変更を導入します。
まず、通常のベクトル量子化器をプロダクト量子化器に置き換えます。
ベクトル量子化とスカラー量子化の間のこの中間的な解決策により、はるかに広いレート歪みポイントのセットが可能になります。それは、そうでなければ扱いにくいほど大きなコードブックを必要とする高品質の量子化器を暗黙的に定義します。
次に、自己教師あり学習および生成画像モデルのコンテキストでのマスク画像モデリング (MIM) の成功に触発されて、量子化された潜在コードの共依存関係をモデル化することによりエントロピー コーディングを改善する新しい条件付きエントロピー モデルを提案します。
結果として得られる PQ-MIM モデルは驚くほど効果的です。その圧縮性能は、最近の超事前確率法と同等です。
また、知覚的損失 (敵対的など) で最適化すると、FID および KID メトリックの点で HiFiC よりも優れています。
最後に、PQ-MIM は画像生成フレームワークと互換性があるため、それ以上のトレーニングや微調整なしで、圧縮と生成の間のハイブリッド モードで動作できることを定性的に示します。
その結果、画像が 200 バイト、つまり 1 ツイート未満に圧縮される極端な圧縮体制を調査します。

要約(オリジナル)

Recent neural compression methods have been based on the popular hyperprior framework. It relies on Scalar Quantization and offers a very strong compression performance. This contrasts from recent advances in image generation and representation learning, where Vector Quantization is more commonly employed. In this work, we attempt to bring these lines of research closer by revisiting vector quantization for image compression. We build upon the VQ-VAE framework and introduce several modifications. First, we replace the vanilla vector quantizer by a product quantizer. This intermediate solution between vector and scalar quantization allows for a much wider set of rate-distortion points: It implicitly defines high-quality quantizers that would otherwise require intractably large codebooks. Second, inspired by the success of Masked Image Modeling (MIM) in the context of self-supervised learning and generative image models, we propose a novel conditional entropy model which improves entropy coding by modelling the co-dependencies of the quantized latent codes. The resulting PQ-MIM model is surprisingly effective: its compression performance on par with recent hyperprior methods. It also outperforms HiFiC in terms of FID and KID metrics when optimized with perceptual losses (e.g. adversarial). Finally, since PQ-MIM is compatible with image generation frameworks, we show qualitatively that it can operate under a hybrid mode between compression and generation, with no further training or finetuning. As a result, we explore the extreme compression regime where an image is compressed into 200 bytes, i.e., less than a tweet.

arxiv情報

著者 Alaaeldin El-Nouby,Matthew J. Muckley,Karen Ullrich,Ivan Laptev,Jakob Verbeek,Hervé Jégou
発行日 2022-12-14 17:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク