要約
学習した画像圧縮(LIC)は、圧縮効果を実現するために画像コンテンツ分布のモデリングで、畳み込みニューラルネットワーク(CNNS)や変圧器などのさまざまなアーキテクチャを調査しました。
ただし、低い計算の複雑さ(\ IE、パラメーター、フロップ、およびレイテンシ)を維持しながら、高いレート耐性パフォーマンスを達成することは依然として困難です。
このホワイトペーパーでは、低い計算の複雑さで優れた速度歪みパフォーマンスを実現するために、\ textit {cmamba}と呼ばれるハイブリッド畳み込みおよび状態空間モデル(SSM)ベースの画像圧縮フレームワークを提案します。
具体的には、CMAMBAには、コンテンツに適合したSSM(CA-SSM)モジュールとコンテキスト認識エントロピー(CAE)モジュールの2つの重要なコンポーネントを導入します。
まず、SSMSは全体的なコンテンツのモデリングに優れているが、高周波の詳細を失う傾向があることを観察しました。
対照的に、CNNはローカルの詳細をキャプチャするのに熟練しています。
これにより動機付けられて、SSMブロックによって抽出されたグローバルコンテンツと、エンコード段階とデコード段階の両方でCNNブロックによってキャプチャされたローカル詳細を動的に融合できるCA-SSMモジュールを提案します。
その結果、重要な画像コンテンツは圧縮中によく保存されます。
第二に、提案されているCAEモジュールは、エンコード後の潜在表現の空間的およびチャネル冗長性を減らすように設計されています。
具体的には、CAEはSSMを活用して、潜在表現の空間コンテンツをパラメーター化します。
SSMの恩恵を受けると、CAEは空間的な圧縮効率を大幅に改善し、空間コンテンツ冗長性を減らします。
さらに、チャネルの次元に沿って、CAEは自己回帰的な方法で潜在表現のチャネル間冗長性を減らします。これにより、効率を犠牲にすることなく以前のチャネルからの事前知識を完全に活用できます。
実験結果は、CMAMBAが優れたレート耐性パフォーマンスを達成することを示しています。
要約(オリジナル)
Learned Image Compression (LIC) has explored various architectures, such as Convolutional Neural Networks (CNNs) and transformers, in modeling image content distributions in order to achieve compression effectiveness. However, achieving high rate-distortion performance while maintaining low computational complexity (\ie, parameters, FLOPs, and latency) remains challenging. In this paper, we propose a hybrid Convolution and State Space Models (SSMs) based image compression framework, termed \textit{CMamba}, to achieve superior rate-distortion performance with low computational complexity. Specifically, CMamba introduces two key components: a Content-Adaptive SSM (CA-SSM) module and a Context-Aware Entropy (CAE) module. First, we observed that SSMs excel in modeling overall content but tend to lose high-frequency details. In contrast, CNNs are proficient at capturing local details. Motivated by this, we propose the CA-SSM module that can dynamically fuse global content extracted by SSM blocks and local details captured by CNN blocks in both encoding and decoding stages. As a result, important image content is well preserved during compression. Second, our proposed CAE module is designed to reduce spatial and channel redundancies in latent representations after encoding. Specifically, our CAE leverages SSMs to parameterize the spatial content in latent representations. Benefiting from SSMs, CAE significantly improves spatial compression efficiency while reducing spatial content redundancies. Moreover, along the channel dimension, CAE reduces inter-channel redundancies of latent representations via an autoregressive manner, which can fully exploit prior knowledge from previous channels without sacrificing efficiency. Experimental results demonstrate that CMamba achieves superior rate-distortion performance.
arxiv情報
著者 | Zhuojie Wu,Heming Du,Shuyun Wang,Ming Lu,Haiyang Sun,Yandong Guo,Xin Yu |
発行日 | 2025-02-07 15:07:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google