MLIC++: Linear Complexity Attention-based Multi-Reference Entropy Modeling for Learned Image Compression

要約

最近、学習された画像圧縮は目覚ましいパフォーマンスを達成しました。
潜在表現の分布を推定するエントロピー モデルは、レート歪みのパフォーマンスを向上させる上で重要な役割を果たします。
ただし、既存のグローバル コンテキスト モジュールは、グローバル相関を取得するために、大量の計算を必要とする 2 次複雑度の計算に依存しています。
この 2 次複雑さにより、高解像度画像コーディングの可能性が制限されます。
さらに、単一のエントロピー モデル内で許容可能な線形複雑度でもローカル、グローバル、およびチャネルごとのコンテキストを効果的にキャプチャすることは依然として課題です。
これらの制限に対処するために、線形複雑性アテンションベースのマルチリファレンス エントロピー モデル (MEM++) を提案します。
MEM++ は、潜在表現に固有のさまざまな相関関係を効果的に捕捉します。
具体的には、まず潜在表現が複数のスライスに分割されます。
特定のスライスを圧縮する場合、以前に圧縮されたスライスがそのチャネルごとのコンテキストとして機能します。
パフォーマンスを犠牲にすることなくローカル コンテキストをキャプチャするために、新しいチェッカーボード アテンション モジュールを導入します。
さらに、グローバルなコンテキストを捕捉するために、ソフトマックス演算の分解を利用して捕捉する線形複雑性アテンションベースのグローバル相関を提案します。
以前にデコードされたスライスのアテンション マップが暗黙的に計算され、現在のスライス内のグローバル相関を予測するために使用されます。
MEM++に基づいて画像圧縮モデルMLIC++を提案する。
広範な実験評価により、当社の MLIC++ が最先端のパフォーマンスを実現し、PSNR の VTM-17.0 と比較して Kodak データセットで BD レートを 13.39% 削減できることが実証されました。
さらに、MLIC++ は解像度に応じて直線的な GPU メモリ消費量を示すため、高解像度の画像コーディングに非常に適しています。
コードと事前トレーニングされたモデルは https://github.com/JiangWeibeta/MLIC で入手できます。

要約(オリジナル)

Recently, learned image compression has achieved impressive performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in enhancing rate-distortion performance. However, existing global context modules rely on computationally intensive quadratic complexity computations to capture global correlations. This quadratic complexity imposes limitations on the potential of high-resolution image coding. Moreover, effectively capturing local, global, and channel-wise contexts with acceptable even linear complexity within a single entropy model remains a challenge. To address these limitations, we propose the Linear Complexity Attention-based Multi-Reference Entropy Model (MEM++). MEM++ effectively captures the diverse range of correlations inherent in the latent representation. Specifically, the latent representation is first divided into multiple slices. When compressing a particular slice, the previously compressed slices serve as its channel-wise contexts. To capture local contexts without sacrificing performance, we introduce a novel checkerboard attention module. Additionally, to capture global contexts, we propose the linear complexity attention-based global correlations capturing by leveraging the decomposition of the softmax operation. The attention map of the previously decoded slice is implicitly computed and employed to predict global correlations in the current slice. Based on MEM++, we propose image compression model MLIC++. Extensive experimental evaluations demonstrate that our MLIC++ achieves state-of-the-art performance, reducing BD-rate by 13.39% on the Kodak dataset compared to VTM-17.0 in PSNR. Furthermore, MLIC++ exhibits linear GPU memory consumption with resolution, making it highly suitable for high-resolution image coding. Code and pre-trained models are available at https://github.com/JiangWeibeta/MLIC.

arxiv情報

著者 Wei Jiang,Jiayu Yang,Yongqi Zhai,Feng Gao,Ronggang Wang
発行日 2024-02-14 11:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク