Image Compression using only Attention based Neural Networks

要約

最近の研究では、学習済み画像圧縮は、特に低ビットレートで従来の手作りパイプラインを上回るパフォーマンスを発揮する能力で注目を集めています。
既存の手法では、畳み込み事前分布と時折アテンション ブロックを組み込んで長距離の依存関係に対処していますが、コンピューター ビジョンの最近の進歩により、アテンション メカニズムに基づいた完全なトランスベースのアーキテクチャへの変革的な移行が提唱されています。
この論文では、新しいモデル QPressFormer 内のアテンション レイヤーのみを使用した画像圧縮の実現可能性を調査します。
学習された画像クエリの概念を導入して、クロスアテンションを介してパッチ情報を集約し、その後に量子化およびコーディング技術を導入します。
広範な評価を通じて、私たちの研究は、一般的な Kodak、DIV2K、および CLIC データセットにわたる畳み込みフリー アーキテクチャによって達成される競争力のあるパフォーマンスを実証しています。

要約(オリジナル)

In recent research, Learned Image Compression has gained prominence for its capacity to outperform traditional handcrafted pipelines, especially at low bit-rates. While existing methods incorporate convolutional priors with occasional attention blocks to address long-range dependencies, recent advances in computer vision advocate for a transformative shift towards fully transformer-based architectures grounded in the attention mechanism. This paper investigates the feasibility of image compression exclusively using attention layers within our novel model, QPressFormer. We introduce the concept of learned image queries to aggregate patch information via cross-attention, followed by quantization and coding techniques. Through extensive evaluations, our work demonstrates competitive performance achieved by convolution-free architectures across the popular Kodak, DIV2K, and CLIC datasets.

arxiv情報

著者 Natacha Luka,Romain Negrel,David Picard
発行日 2023-10-17 13:38:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク