要約
生成圧縮技術の最近の進歩により、圧縮データの知覚品質が大幅に向上しました。
ただし、これらの進歩は主に高周波の詳細を生成することに焦点を当てており、多くの場合、画像コンテンツの事前分布をキャプチャする生成モデルの機能が見落とされているため、極端な圧縮シナリオ (<0.05 bpp) でのビットレートのさらなる削減が妨げられています。
可逆圧縮のための予測言語モデルの機能を動機として、このペーパーでは、生成と圧縮のプロセスを統合した新しい統合画像生成圧縮 (UIGC) パラダイムを紹介します。
UIGC フレームワークの重要な機能は、事前分布をモデル化するために空間コンテキスト情報を活用するように設計された多段階変換器と並んで、トークン化のためのベクトル量子化 (VQ) 画像モデルの採用です。
このように、二重目的フレームワークは、エントロピー推定のために学習した事前情報を効果的に利用し、失われたトークンの再生を支援します。
広範な実験により、特に超低ビットレート シナリオ (<=0.03 bpp) において、知覚品質と人間の知覚において、提案された UIGC フレームワークが既存のコーデックよりも優れていることが実証され、生成圧縮の新たな方向性が開拓されました。
要約(オリジナル)
Recent progress in generative compression technology has significantly improved the perceptual quality of compressed data. However, these advancements primarily focus on producing high-frequency details, often overlooking the ability of generative models to capture the prior distribution of image content, thus impeding further bitrate reduction in extreme compression scenarios (<0.05 bpp). Motivated by the capabilities of predictive language models for lossless compression, this paper introduces a novel Unified Image Generation-Compression (UIGC) paradigm, merging the processes of generation and compression. A key feature of the UIGC framework is the adoption of vector-quantized (VQ) image models for tokenization, alongside a multi-stage transformer designed to exploit spatial contextual information for modeling the prior distribution. As such, the dual-purpose framework effectively utilizes the learned prior for entropy estimation and assists in the regeneration of lost tokens. Extensive experiments demonstrate the superiority of the proposed UIGC framework over existing codecs in perceptual quality and human perception, particularly in ultra-low bitrate scenarios (<=0.03 bpp), pioneering a new direction in generative compression.
arxiv情報
著者 | Naifu Xue,Qi Mao,Zijian Wang,Yuan Zhang,Siwei Ma |
発行日 | 2024-03-06 14:27:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google