MLIC: Multi-Reference Entropy Model for Learned Image Compression

要約

近年、学習型画像圧縮の性能が飛躍的に向上しています。
潜在表現の分布を推定するエントロピー モデルは、レート歪みのパフォーマンスを向上させる上で重要な役割を果たします。
ただし、ほとんどのエントロピー モデルは 1 次元での相関のみを捉え、潜在的な表現にはチャネルごとの、ローカルな空間相関、およびグローバルな空間相関が含まれます。
この問題に取り組むために、多重参照エントロピー モデル (MEM) とその高度なバージョンである MEM$^+$ を提案します。
これらのモデルは、潜在表現に存在するさまざまなタイプの相関関係を捕捉します。
具体的には、まず潜在表現をスライスに分割します。
現在のスライスをデコードするとき、以前にデコードされたスライスをコンテキストとして使用し、以前にデコードされたスライスのアテンション マップを使用して、現在のスライス内のグローバル相関を予測します。
ローカル コンテキストをキャプチャするために、パフォーマンスの低下を回避する 2 つの強化されたチェッカーボード コンテキスト キャプチャ手法を導入します。
MEMとMEM$^+$に基づいて、画像圧縮モデルMLICとMLIC$^+$を提案します。
広範な実験評価により、当社の MLIC および MLIC$^+$ モデルが最先端のパフォーマンスを達成し、コダック データセットでの測定時に VTM-17.0 と比較して BD レートが $8.05\%$ および $11.39\%$ 削減されることが実証されました。
PSNR。
私たちのコードは https://github.com/JiangWeibeta/MLIC で入手できます。

要約(オリジナル)

Recently, learned image compression has achieved remarkable performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in boosting rate-distortion performance. However, most entropy models only capture correlations in one dimension, while the latent representation contain channel-wise, local spatial, and global spatial correlations. To tackle this issue, we propose the Multi-Reference Entropy Model (MEM) and the advanced version, MEM$^+$. These models capture the different types of correlations present in latent representation. Specifically, We first divide the latent representation into slices. When decoding the current slice, we use previously decoded slices as context and employ the attention map of the previously decoded slice to predict global correlations in the current slice. To capture local contexts, we introduce two enhanced checkerboard context capturing techniques that avoids performance degradation. Based on MEM and MEM$^+$, we propose image compression models MLIC and MLIC$^+$. Extensive experimental evaluations demonstrate that our MLIC and MLIC$^+$ models achieve state-of-the-art performance, reducing BD-rate by $8.05\%$ and $11.39\%$ on the Kodak dataset compared to VTM-17.0 when measured in PSNR. Our code will be available at https://github.com/JiangWeibeta/MLIC.

arxiv情報

著者 Wei Jiang,Jiayu Yang,Yongqi Zhai,Peirong Ning,Feng Gao,Ronggang Wang
発行日 2023-08-09 15:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク