Swift Parameter-free Attention Network for Efficient Super-Resolution

要約

単一画像超解像度 (SISR) は、低解像度の画像から高解像度の画像を再構築することを目的とした、低レベルのコンピューター ビジョンにおける重要なタスクです。
従来のアテンション メカニズムは SISR のパフォーマンスを大幅に向上させてきましたが、多くの場合、複雑なネットワーク構造と多数のパラメーターが発生し、推論速度の低下とモデル サイズの増大につながります。
この問題に対処するために、パラメータ数、推論速度、画質のバランスをとった高効率の SISR モデルである Swift Parameter-free Attendant Network (SPAN) を提案します。
SPAN は、対称活性化関数と残留接続を活用して、寄与度の高い情報を強化し、冗長な情報を抑制する、新しいパラメータフリーのアテンション メカニズムを採用しています。
私たちの理論的分析は、注意メカニズムの目的を達成する上でのこの設計の有効性を実証しています。
複数のベンチマークで SPAN を評価したところ、画質と推論速度の両方の点で既存の効率的な超解像度モデルよりも優れており、品質と速度の大幅なトレードオフが実現していることがわかりました。
このため、SPAN は実際のアプリケーション、特にリソースに制約のあるシナリオに非常に適しています。
特に、私たちのモデルは 27.09 dB という最高の PSNR を達成し、NTIRE 2023 の効率的な超解像度チャレンジにおいて私たちのチームのテスト実行時間が 7.08 ミリ秒短縮されました。
私たちのコードとモデルは \url{https://github.com/hongyuanyu/SPAN} で公開されています。

要約(オリジナル)

Single Image Super-Resolution (SISR) is a crucial task in low-level computer vision, aiming to reconstruct high-resolution images from low-resolution counterparts. Conventional attention mechanisms have significantly improved SISR performance but often result in complex network structures and large number of parameters, leading to slow inference speed and large model size. To address this issue, we propose the Swift Parameter-free Attention Network (SPAN), a highly efficient SISR model that balances parameter count, inference speed, and image quality. SPAN employs a novel parameter-free attention mechanism, which leverages symmetric activation functions and residual connections to enhance high-contribution information and suppress redundant information. Our theoretical analysis demonstrates the effectiveness of this design in achieving the attention mechanism’s purpose. We evaluate SPAN on multiple benchmarks, showing that it outperforms existing efficient super-resolution models in terms of both image quality and inference speed, achieving a significant quality-speed trade-off. This makes SPAN highly suitable for real-world applications, particularly in resource-constrained scenarios. Notably, our model attains the best PSNR of 27.09 dB, and the test runtime of our team is reduced by 7.08ms in the NTIRE 2023 efficient super-resolution challenge. Our code and models are made publicly available at \url{https://github.com/hongyuanyu/SPAN}.

arxiv情報

著者 Cheng Wan,Hongyuan Yu,Zhiqi Li,Yihang Chen,Yajun Zou,Yuqing Liu,Xuanwu Yin,Kunlong Zuo
発行日 2023-11-21 18:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク