Omni Aggregation Networks for Lightweight Image Super-Resolution

要約

「Omni Aggregation Networks for Lightweight Image Super-Resolution」という論文は、軽量なViTフレームワークが画像超解像度において大きな進展を遂げたものの、一次元の自己注意モデリングと同質の集計方案によって、空間およびチャネル次元からより包括的な相互作用を含む有効な受容野(ERF)が制限されるという問題を抱えている。この課題に対処するために、新しいOmni-SRアーキテクチャの下で、2つの改良されたコンポーネントが提案されている。第一に、密な相互作用原理に基づいて、Omni Self-Attention(OSA)ブロックが提案されており、空間およびチャネル次元の両方からピクセル相互作用を同時にモデリングでき、オムニ軸(つまり、空間軸とチャネル軸)を横断して潜在的な相関を探索できるようになっている。メインストリームの窓分割戦略と組み合わせることで、OSAは、魅力的な計算予算で優れた性能を実現することができる。第二に、浅いモデルにおけるサブオプティマルなERF(つまり、早期飽和)を緩和するために、マルチスケール相互作用スキームが提案されており、ローカル伝播とメソ /グローバルスケールの相互作用を促進し、オムニスケール集計ビルディングブロックを生成する。豊富な実験により、Omni-SRは、軽量超解像度ベンチマーク(たとえば、792Kパラメータのみで26.95 dB@Urban100 $\times 4$)において、空前の高水準を実現している。この論文のコードは、\url{https://github.com/Francis0625/Omni-SR} で公開されている。

要点:
– 軽量ViTフレームワークは、画像超解像度の進歩をもたらしたが、自己注意モデリングと集計方案によってERFが制限される問題があった。
– Omni-SRは、空間およびチャネル次元から包括的な相互作用を含むERFを実現するために、OSAブロックとマルチスケール相互作用スキームを提案している。
– OSAは、密な相互作用原理に基づくピクセル相互作用を同時にモデリングし、オムニ軸(空間軸とチャネル軸)を横断して相関を探索する。
– マルチスケール相互作用スキームは、浅いモデルにおけるサブオプティマルなERFを緩和し、ローカル伝播とメソ/グローバルスケールの相互作用を促進し、オムニスケール集計ビルディングブロックを生成する。
– 豊富な実験により、Omni-SRは、軽量超解像度ベンチマークにおいて、空前の高水準を実現している。

要約(オリジナル)

While lightweight ViT framework has made tremendous progress in image super-resolution, its uni-dimensional self-attention modeling, as well as homogeneous aggregation scheme, limit its effective receptive field (ERF) to include more comprehensive interactions from both spatial and channel dimensions. To tackle these drawbacks, this work proposes two enhanced components under a new Omni-SR architecture. First, an Omni Self-Attention (OSA) block is proposed based on dense interaction principle, which can simultaneously model pixel-interaction from both spatial and channel dimensions, mining the potential correlations across omni-axis (i.e., spatial and channel). Coupling with mainstream window partitioning strategies, OSA can achieve superior performance with compelling computational budgets. Second, a multi-scale interaction scheme is proposed to mitigate sub-optimal ERF (i.e., premature saturation) in shallow models, which facilitates local propagation and meso-/global-scale interactions, rendering an omni-scale aggregation building block. Extensive experiments demonstrate that Omni-SR achieves record-high performance on lightweight super-resolution benchmarks (e.g., 26.95 dB@Urban100 $\times 4$ with only 792K parameters). Our code is available at \url{https://github.com/Francis0625/Omni-SR}.

arxiv情報

著者 Hang Wang,Xuanhong Chen,Bingbing Ni,Yutian Liu,Jinfan Liu
発行日 2023-04-20 12:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク