要約
最近、トランスネットワークは、グローバルな受容フィールドと入力への適応性により、画像修復の分野で優れたパフォーマンスを実証しています。
ただし、ソフトマックスアテンションの二次計算の複雑さは、特に高解像度画像の画像修復タスクにおけるその広範なアプリケーションに大きな制限をもたらします。
この課題に取り組むために、変圧器の新しいバリアントを提案します。
このバリアントは、Taylor拡張を活用してSoftmax-Attentionを近似し、Norm-Preservingマッピングの概念を利用して、1次Taylor拡張の残りの部分を近似し、線形計算の複雑さをもたらします。
さらに、提案されたトランスに埋め込まれたマルチスケールパッチを特徴とするマルチブランチアーキテクチャを紹介します。これには、4つの異なる利点があります。1)さまざまなサイズの受容フィールド。
2)マルチレベルのセマンティック情報。
3)受容フィールドの柔軟な形状。
4)加速トレーニングと推論速度。
したがって、提案されたモデルは、Taylorフォーミュラ拡張ベースの変圧器(短いMB-TaylorFormer V2の場合)の2番目のバージョンと名付けられており、粗から仕立ての特徴を同時に処理し、限られた計算コストとの長距離ピクセルの相互作用をキャプチャし、テイラー拡張の残りの近似を改善する機能を備えています。
多様な画像修復ベンチマーク全体の実験結果は、MB-TaylorFormer V2が、イメージの脱ヘージング、デレンジ、デス、モーションデブリング、除去など、複数の画像修復タスクで最先端のパフォーマンスを達成し、計算オーバーヘッドがほとんどないことを示しています。
ソースコードは、https://github.com/fvl2020/mb-taylorformerv2で入手できます。
要約(オリジナル)
Recently, Transformer networks have demonstrated outstanding performance in the field of image restoration due to the global receptive field and adaptability to input. However, the quadratic computational complexity of Softmax-attention poses a significant limitation on its extensive application in image restoration tasks, particularly for high-resolution images. To tackle this challenge, we propose a novel variant of the Transformer. This variant leverages the Taylor expansion to approximate the Softmax-attention and utilizes the concept of norm-preserving mapping to approximate the remainder of the first-order Taylor expansion, resulting in a linear computational complexity. Moreover, we introduce a multi-branch architecture featuring multi-scale patch embedding into the proposed Transformer, which has four distinct advantages: 1) various sizes of the receptive field; 2) multi-level semantic information; 3) flexible shapes of the receptive field; 4) accelerated training and inference speed. Hence, the proposed model, named the second version of Taylor formula expansion-based Transformer (for short MB-TaylorFormer V2) has the capability to concurrently process coarse-to-fine features, capture long-distance pixel interactions with limited computational cost, and improve the approximation of the Taylor expansion remainder. Experimental results across diverse image restoration benchmarks demonstrate that MB-TaylorFormer V2 achieves state-of-the-art performance in multiple image restoration tasks, such as image dehazing, deraining, desnowing, motion deblurring, and denoising, with very little computational overhead. The source code is available at https://github.com/FVL2020/MB-TaylorFormerV2.
arxiv情報
著者 | Zhi Jin,Yuwei Qiu,Kaihao Zhang,Hongdong Li,Wenhan Luo |
発行日 | 2025-04-14 17:45:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google