LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression

要約

有効受容野 (ERF) は、変換コーディングにおいて重要な役割を果たします。これにより、変換中にどれだけの冗長性を除去できるか、また逆変換中にテクスチャを合成するためにどれだけの空間事前分布を利用できるかが決まります。
既存の方法は、ERF が不十分なままである小さなカーネルのスタック、または高解像度画像コーディングの可能性を制限する重い非ローカル アテンション メカニズムに依存しています。
この問題に取り組むために、学習済み画像圧縮 (LLIC) の適応重みを使用した大規模受容野変換コーディングを提案します。
具体的には、学習済み画像圧縮コミュニティで初めて、適度な複雑さを維持しながら冗長性をさらに削減するために、いくつかの大規模なカーネルベースの深さ方向の畳み込みを導入しました。
画像の多様性が広範囲に及ぶため、自己調整された重みの生成を通じて畳み込みの適応性を強化するメカニズムをさらに提案します。
大きなカーネルは、非線形埋め込みおよびゲート メカニズムと連携して、より優れた表現力とより軽量な点単位の相互作用を実現します。
私たちの調査は、これらの大きなカーネルの可能性を最大限に引き出す洗練されたトレーニング方法にまで及びます。
さらに、より動的なチャネル間インタラクションを促進するために、自己条件付けされた方法でチャネル重要度因子を自律的に生成する、適応的なチャネルごとのビット割り当て戦略を導入します。
提案された変換コーディングの有効性を実証するために、エントロピー モデルを調整して既存の変換方法と比較し、モデル LLIC-STF、LLIC-ELIC、および LLIC-TCM を取得します。
広範な実験により、私たちが提案した LLIC モデルは対応するベースラインに比べて大幅に改善され、Kodak では VTM-17.0 Intra に対して BD レートがそれぞれ 9.49%、9.47%、10.94% 低下することが実証されました。
当社の LLIC モデルは、最先端のパフォーマンスを実現し、パフォーマンスと複雑さの間のより良いトレードオフを実現します。

要約(オリジナル)

The effective receptive field (ERF) plays an important role in transform coding, which determines how much redundancy can be removed during transform and how many spatial priors can be utilized to synthesize textures during inverse transform. Existing methods rely on stacks of small kernels, whose ERFs remain insufficiently large, or heavy non-local attention mechanisms, which limit the potential of high-resolution image coding. To tackle this issue, we propose Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression (LLIC). Specifically, for the first time in the learned image compression community, we introduce a few large kernelbased depth-wise convolutions to reduce more redundancy while maintaining modest complexity. Due to the wide range of image diversity, we further propose a mechanism to augment convolution adaptability through the self-conditioned generation of weights. The large kernels cooperate with non-linear embedding and gate mechanisms for better expressiveness and lighter pointwise interactions. Our investigation extends to refined training methods that unlock the full potential of these large kernels. Moreover, to promote more dynamic inter-channel interactions, we introduce an adaptive channel-wise bit allocation strategy that autonomously generates channel importance factors in a self-conditioned manner. To demonstrate the effectiveness of the proposed transform coding, we align the entropy model to compare with existing transform methods and obtain models LLIC-STF, LLIC-ELIC, and LLIC-TCM. Extensive experiments demonstrate that our proposed LLIC models have significant improvements over the corresponding baselines and reduce the BD-Rate by 9.49%, 9.47%, 10.94% on Kodak over VTM-17.0 Intra, respectively. Our LLIC models achieve state-of-the-art performances and better trade-offs between performance and complexity.

arxiv情報

著者 Wei Jiang,Peirong Ning,Jiayu Yang,Yongqi Zhai,Feng Gao,Ronggang Wang
発行日 2024-06-21 12:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, eess.IV パーマリンク