要約
雨による雪による天候の除去は、共存する雨の縞模様と雪の粒子を除去することを目的とした、天候によって劣化した画像の修復における特殊なタスクです。
このペーパーでは、この課題に対処する効率的かつ効果的な Transformer である RSFormer を提案します。
最初に、階層アーキテクチャにおける畳み込みネットワーク (ConvNets) とビジョン トランスフォーマー (ViTs) の近接性を調査し、それらがほぼステージ内特徴学習で実行されることを実験的に発見しました。
これに基づいて、入力コンテンツに適応するための注意特性を維持しながら、計算コストのかかる自己注意を置き換える Transformer のような畳み込みブロック (TCB) を利用します。
また、パフォーマンス向上にはクロスステージの進行が重要であることを実証し、グローバルとローカルの両方の依存関係をキャプチャしながら特徴をダウン/アップサンプリングするグローバル-ローカル セルフ アテンション サンプリング メカニズム (GLASM) を提案します。
最後に、2 つの新しい雨と雪のデータセット、RSCityScape と RS100K を合成して、提案した RSFormer を評価します。
広範な実験により、RSFormer が他の復元方法と比較してパフォーマンスと時間消費の間で最良のトレードオフを達成していることが検証されています。
たとえば、パラメータ数が 1.53% 削減され、推論時間が 15.6% 削減され、Restormer よりも優れたパフォーマンスを発揮します。
データセット、ソースコード、事前トレーニング済みモデルは \url{https://github.com/chdwyb/RSFormer} で入手できます。
要約(オリジナル)
Rain-by-snow weather removal is a specialized task in weather-degraded image restoration aiming to eliminate coexisting rain streaks and snow particles. In this paper, we propose RSFormer, an efficient and effective Transformer that addresses this challenge. Initially, we explore the proximity of convolution networks (ConvNets) and vision Transformers (ViTs) in hierarchical architectures and experimentally find they perform approximately at intra-stage feature learning. On this basis, we utilize a Transformer-like convolution block (TCB) that replaces the computationally expensive self-attention while preserving attention characteristics for adapting to input content. We also demonstrate that cross-stage progression is critical for performance improvement, and propose a global-local self-attention sampling mechanism (GLASM) that down-/up-samples features while capturing both global and local dependencies. Finally, we synthesize two novel rain-by-snow datasets, RSCityScape and RS100K, to evaluate our proposed RSFormer. Extensive experiments verify that RSFormer achieves the best trade-off between performance and time-consumption compared to other restoration methods. For instance, it outperforms Restormer with a 1.53% reduction in the number of parameters and a 15.6% reduction in inference time. Datasets, source code and pre-trained models are available at \url{https://github.com/chdwyb/RSFormer}.
arxiv情報
著者 | Tao Gao,Yuanbo Wen,Kaihao Zhang,Peng Cheng,Ting Chen |
発行日 | 2023-10-27 09:45:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google