S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation

要約

トランスは、学習した画像圧縮(LIC)で大幅に成功しており、非線形変換の主流の選択肢としてスウィン変圧器が浮上しています。
一般的な信念は、彼らの洗練された空間的操作が彼らの有効性に最も貢献するということです。
ただし、変圧器アーキテクチャ内のフィードフォワードネットワーク(FFN)ベースのチャネル集約モジュールの重要な役割はほとんど見落とされており、空間操作の過剰設計は、デコードレイテンシとR-Dパフォーマンスの間の最適ではないトレードオフにつながります。
この論文では、LICの変圧器の能力の背後にある重要な要因を再評価します。
空間操作をアイデンティティマッピングに置き換えることで、チャネル操作のみが主要な方法のR-Dパフォーマンスにアプローチできることに驚いています。
このパフォーマンスの強固な下限は、Channel Aggregationの存在が競争力のあるパフォーマンスを達成するためにはChannel Aggregationの存在がより重要であることを強調していますが、以前は複雑な空間的相互作用は部分的に冗長です。
この洞察に基づいて、「S2CFORMER」パラダイムを開始します。これは、空間的相互作用からチャネル集約までのLICの焦点を再配分する一般的なアーキテクチャです。
S2CFORMERの2つのインスタンス化:S2C-CONVとS2C-Attentionを提示します。
それぞれが空間相互作用のためのシンプルな演算子を組み込み、LICモデルの非線形変換ブロックとして機能します。
両方のモデルは、最先端の(SOTA)R-Dパフォーマンスを示し、デコード速度が大幅に高速であることを示しています。
また、これらの結果は、高度なFFN構造のさらなる調査を動機付け、モデルの効率を維持しながらR-Dパフォーマンスを向上させます。
これらの基礎を使用して、さまざまなS2CFORMERインスタンス化の強度を組み合わせた強化されたLICモデルであるS2C-Hybridを導入します。
このモデルは、いくつかのデータセット上のすべての既存のメソッドを上回り、効率的で高性能LICの新しいベンチマークを設定します。

要約(オリジナル)

Transformers have achieved significant success in learned image compression (LIC), with Swin Transformers emerging as the mainstream choice for nonlinear transforms. A common belief is that their sophisticated spatial operations contribute most to their efficacy. However, the crucial role of the feed-forward network (FFN) based Channel Aggregation module within the transformer architecture has been largely overlooked, and the over-design of spatial operations leads to a suboptimal trade-off between decoding latency and R-D performance. In this paper, we reevaluate the key factors behind the competence of transformers in LIC. By replacing spatial operations with identity mapping, we are surprised to find that channel operations alone can approach the R-D performance of the leading methods. This solid lower bound of performance emphasizes that the presence of channel aggregation is more essential for the LIC model to achieve competitive performance, while the previously complex spatial interactions are partly redundant. Based on this insight, we initiate the ‘S2CFormer’ paradigm, a general architecture that reorients the focus of LIC from Spatial Interaction to Channel Aggregation. We present two instantiations of the S2CFormer: S2C-Conv, and S2C-Attention. Each one incorporates a simple operator for spatial interaction and serves as nonlinear transform blocks for our LIC models. Both models demonstrate state-of-the-art (SOTA) R-D performance and significantly faster decoding speed. These results also motivate further exploration of advanced FFN structures to enhance the R-D performance while maintaining model efficiency. With these foundations, we introduce S2C-Hybrid, an enhanced LIC model that combines the strengths of different S2CFormer instantiations. This model outperforms all the existing methods on several datasets, setting a new benchmark for efficient and high-performance LIC.

arxiv情報

著者 Yunuo Chen,Qian Li,Bing He,Donghui Feng,Ronghua Wu,Qi Wang,Li Song,Guo Lu,Wenjun Zhang
発行日 2025-02-14 18:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク