Efficient Contextformer: Spatio-Channel Window Attention for Fast Context Modeling in Learned Image Compression

要約

エントロピー推定は、学習された画像圧縮のパフォーマンスに不可欠です。
トランスベースのエントロピー モデルは、高い圧縮率を達成するために非常に重要ですが、多大な計算量を犠牲にすることが実証されています。
この研究では、学習された画像圧縮のための計算効率の高いトランスフォーマーベースの自己回帰コンテキスト モデルである Efficient Contextformer (eContextformer) を紹介します。
eContextformer は、並列コンテキスト モデリングのためのパッチ単位、チェッカー単位、およびチャネル単位のグループ化手法を効率的に融合し、シフト ウィンドウの空間チャネル アテンション メカニズムを導入します。
私たちはより良いトレーニング戦略とアーキテクチャ設計を模索し、さらなる複雑さの最適化を導入します。
提案された最適化手法は、デコード中にアテンション スパンを動的にスケーリングし、以前のアテンション計算をキャッシュして、モデルとランタイムの複雑さを大幅に軽減します。
非並列アプローチと比較して、私たちの提案はモデルの複雑さが最大 ​​145 倍低く、デコード速度が最大 210 倍速く、Kodak、CLIC2020、および Tecnick データセットでより高い平均ビット節約を達成します。
さらに、コンテキスト モデルの複雑さが低いため、オンライン レート ディストーション アルゴリズムが可能になり、圧縮パフォーマンスがさらに向上します。
Versatile Videocoding (VVC) Test Model (VTM) 16.2 のイントラ コーディングと比較して最大 17% のビットレート節約を達成し、さまざまな学習ベースの圧縮モデルを上回ります。

要約(オリジナル)

Entropy estimation is essential for the performance of learned image compression. It has been demonstrated that a transformer-based entropy model is of critical importance for achieving a high compression ratio, however, at the expense of a significant computational effort. In this work, we introduce the Efficient Contextformer (eContextformer) – a computationally efficient transformer-based autoregressive context model for learned image compression. The eContextformer efficiently fuses the patch-wise, checkered, and channel-wise grouping techniques for parallel context modeling, and introduces a shifted window spatio-channel attention mechanism. We explore better training strategies and architectural designs and introduce additional complexity optimizations. During decoding, the proposed optimization techniques dynamically scale the attention span and cache the previous attention computations, drastically reducing the model and runtime complexity. Compared to the non-parallel approach, our proposal has ~145x lower model complexity and ~210x faster decoding speed, and achieves higher average bit savings on Kodak, CLIC2020, and Tecnick datasets. Additionally, the low complexity of our context model enables online rate-distortion algorithms, which further improve the compression performance. We achieve up to 17% bitrate savings over the intra coding of Versatile Video Coding (VVC) Test Model (VTM) 16.2 and surpass various learning-based compression models.

arxiv情報

著者 A. Burakhan Koyuncu,Panqi Jia,Atanas Boev,Elena Alshina,Eckehard Steinbach
発行日 2024-02-27 14:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク