SLIC: Large Receptive Field Learning with Self-Conditioned Adaptability for Learned Image Compression

要約

最近、トランスフォーマーは、圧縮などのビジョンタスクにおいて CNN の代替品としてトレンドになっています。
この傾向により、私たちはトランスと比較した CNN の固有の制限に疑問を抱き、CNN を強化してトランスと同等またはそれ以上のパフォーマンスを達成できるかどうかを探求する必要に迫られています。
ほとんどのデバイスは CNN 用に最適化されているため、圧縮用に純粋な CNN ベースのモデルを設計したいと考えています。
私たちの分析では、変圧器の主な長所はその動的重量と広い受容野にあることがわかりました。
このような特性を持つ CNN を有効にするために、大規模な受容野学習と学習された画像圧縮に対する自己条件適応性を備えた、SLIC と呼ばれる新しい変換モジュールを提案します。
具体的には、適切な複雑さで深さ方向の畳み込みの受容野を拡大し、与えられた条件に従って重みを生成します。
さらに、チャネルの自己調整要因も調査します。
提案した変換モジュールの有効性を証明するために、既存のエントロピー モデル ChARM、SCCTX、および SWAtten をそれに装備し、モデル SLIC-ChARM、SLIC-SCCTX、および SLIC-SWAtten を取得します。
広範な実験により、当社の SLIC-ChARM、SLIC-SCCTX、および SLIC-SWAtten が対応するベースラインと比較して大幅に向上し、5 つのテスト データセット (Kodak、Tecnick、CLIC 20、CLIC 21、JPEGAI) で適切な複雑さの SOTA パフォーマンスを達成することが実証されました。
コードは https://github.com/JiangWeibeta/SLIC で入手できます。

要約(オリジナル)

Recently, transformers are trending as replacements for CNNs in vision tasks, including compression. This trend compels us to question the inherent limitations of CNNs compared to transformers and to explore if CNNs can be enhanced to achieve the same or even better performance than transformers. We want to design a pure CNN based model for compression as most devices are optimized for CNNs well. In our analysis, we find that the key strengths of transformers lie in their dynamic weights and large receptive fields. To enable CNNs with such properties, we propose a novel transform module with large receptive filed learning and self-conditioned adaptability for learned image compression, named SLIC. Specifically, we enlarge the receptive field of depth-wise convolution with suitable complexity and generate the weights according to given conditions. In addition, we also investigate the self-conditioned factor for channels. To prove the effectiveness of our proposed transform module, we equip it with existing entropy models ChARM, SCCTX, and SWAtten and we obtain models SLIC-ChARM, SLIC-SCCTX, and SLIC-SWAtten. Extensive experiments demonstrate our SLIC-ChARM, SLIC-SCCTX, and SLIC-SWAtten have significant improvements over corresponding baselines and achieve SOTA performances with suitable complexity on 5 test datasets (Kodak, Tecnick, CLIC 20, CLIC 21, JPEGAI). Code will be available at https://github.com/JiangWeibeta/SLIC.

arxiv情報

著者 Wei Jiang,Peirong Ning,Jiayu Yang,Yongqi Zhai,Ronggang Wang
発行日 2023-08-14 15:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, eess.IV パーマリンク