Dual-former: Hybrid Self-attention Transformer for Efficient Image Restoration

要約

近年、画像復元変換器は、これまでの最先端CNNと同等の性能を達成している。しかし、このようなアーキテクチャをどのように効率的に活用するかは未解決の課題である。本研究では、自己アテンションモジュールの強力なグローバルモデリング能力と、コンボリューションのローカルモデリング能力を、全体的なアーキテクチャにおいて結合することを重要な洞察とするDual-formerを発表する。エンコーダとデコーダにコンボリューションベースの局所特徴抽出モジュールを搭載し、潜在層には空間次元の長距離依存性をモデル化し、チャンネル間の不均一な分布を扱うための新しいハイブリッド変換ブロックを採用するだけです。このような設計により、従来の画像復元変換器における大幅な計算量の増加を排除し、複数の画像復元タスクにおいて優れた性能を達成することができます。実験によると、Dual-formerはインドアデータセットにおいて、MAXIMと比較してわずか4.2%のGFLOPsで、単一画像のデヘイズにおいて1.91dBの利得を達成することを示しました。また、単一画像のデヘイズにおいては、5つのデータセットの平均結果で、SOTA法を0.1dB PSNR上回り、GFLOPsはわずか21.5%でした。また、Dual-formerは、より少ないパラメータで、様々なデータセットにおいて、最新のデスノウジング法を大幅に上回る結果を得ています。

要約(オリジナル)

Recently, image restoration transformers have achieved comparable performance with previous state-of-the-art CNNs. However, how to efficiently leverage such architectures remains an open problem. In this work, we present Dual-former whose critical insight is to combine the powerful global modeling ability of self-attention modules and the local modeling ability of convolutions in an overall architecture. With convolution-based Local Feature Extraction modules equipped in the encoder and the decoder, we only adopt a novel Hybrid Transformer Block in the latent layer to model the long-distance dependence in spatial dimensions and handle the uneven distribution between channels. Such a design eliminates the substantial computational complexity in previous image restoration transformers and achieves superior performance on multiple image restoration tasks. Experiments demonstrate that Dual-former achieves a 1.91dB gain over the state-of-the-art MAXIM method on the Indoor dataset for single image dehazing while consuming only 4.2% GFLOPs as MAXIM. For single image deraining, it exceeds the SOTA method by 0.1dB PSNR on the average results of five datasets with only 21.5% GFLOPs. Dual-former also substantially surpasses the latest desnowing method on various datasets, with fewer parameters.

arxiv情報

著者 Sixiang Chen,Tian Ye,Yun Liu,Erkang Chen
発行日 2022-10-03 16:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク