SLIC: Self-Conditioned Adaptive Transform with Large-Scale Receptive Fields for Learned Image Compression

要約

タイトル:自己条件付き適応変換と大規模受容野を持つ学習済み画像圧縮のSLIC

要約:
– 学習済み画像圧縮は驚くべきパフォーマンスを達成しています。
– 変換は、RD性能を向上させるために重要な役割を果たします。解析変換は、入力画像をコンパクトな潜在表現に変換します。潜在表現がよりコンパクトであれば、圧縮するのに必要なビット数が少なくなります。
– より良い変換を設計する際、一部の先行研究ではSwin-Transformerを採用しています。Swin-Transformerの成功は、動的ウェイトと大規模な受容野に帰因できます。
– ただし、トランスフォーマーで採用されているLayerNormは、画像圧縮には適していません。CNNベースのモジュールでも、動的で大規模な受容野を持つことができます。GDN / IGDNと一緒に動作することができます。
– CNNベースのモジュールを動的にするために、入力特徴量に応じてカーネルの重みを生成します。各カーネルのサイズを拡大して、より大きな受容野を持たせます。複雑さを減らすために、CNNモジュールはチャネル単位で接続されています。これをダイナミック(動的)Depth-wise convolutionと呼びます。
– 提案されたダイナミックDepth-wise convolutionにSelf-Attentionモジュールを置き換え、埋め込み層には深さ方向の残差ボトルネックを、FFN層には空間ドメイン内でのより多くの相互作用のための反転残差ボトルネックを置き換えます。
– ダイナミックDepth-wise convolutionのチャネル間の相互作用は限定されています。そのため、チャネルアテンションでダイナミックDepth-wise convolutionを置き換える他のブロックを設計しました。
– プロポーズされたモジュールを解析と合成変換に装備し、よりコンパクトな潜在表現を受け取ります。提案した学習済み画像圧縮モデルSLIC(Self-Conditioned Adaptive Transform with Large-Scale Receptive Fields for Learned Image Compression)は、KodakデータセットのPSNRで測定した場合、VVCに対して6.35%のBDレート低下を実現しました。

要約(オリジナル)

Learned image compression has achieved remarkable performance. Transform, plays an important role in boosting the RD performance. Analysis transform converts the input image to a compact latent representation. The more compact the latent representation is, the fewer bits we need to compress it. When designing better transform, some previous works adopt Swin-Transformer. The success of the Swin-Transformer in image compression can be attributed to the dynamic weights and large receptive field.However,the LayerNorm adopted in transformers is not suitable for image compression.We find CNN-based modules can also be dynamic and have large receptive-fields. The CNN-based modules can also work with GDN/IGDN. To make the CNN-based modules dynamic, we generate the weights of kernels conditioned on the input feature. We scale up the size of each kernel for larger receptive fields. To reduce complexity, we make the CNN-module channel-wise connected. We call this module Dynamic Depth-wise convolution. We replace the self-attention module with the proposed Dynamic Depth-wise convolution, replace the embedding layer with a depth-wise residual bottleneck for non-linearity and replace the FFN layer with an inverted residual bottleneck for more interactions in the spatial domain. The interactions among channels of dynamic depth-wise convolution are limited. We design the other block, which replaces the dynamic depth-wise convolution with channel attention. We equip the proposed modules in the analysis and synthesis transform and receive a more compact latent representation and propose the learned image compression model SLIC, meaning Self-Conditioned Adaptive Transform with Large-Scale Receptive Fields for Learned Image Compression Learned Image Compression. Thanks to the proposed transform modules, our proposed SLIC achieves 6.35% BD-rate reduction over VVC when measured in PSNR on Kodak dataset.

arxiv情報

著者 Wei Jiang,Peirong Ning,Ronggang Wang
発行日 2023-04-19 11:19:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM, eess.IV パーマリンク