WaveletFormerNet: A Transformer-based Wavelet Network for Real-world Non-homogeneous and Dense Fog Removal

要約

ディープ畳み込みニューラル ネットワークは、合成霧の除去において目覚ましい成功を収めていますが、現実世界では、濃い霧や不均一な霧など、複雑な霧の状態で撮影された画像を処理できることが不可欠です。
ただし、現実世界のヘイズ分布は複雑であり、特徴マップの解像度または画像解像度が低下するため、ダウンサンプリングにより出力結果の色の歪みや詳細の損失が発生する可能性があります。
十分なトレーニング データを取得するという課題に加えて、フォギー画像処理の深層学習技術でも過学習が発生する可能性があり、これによりモデルの一般化能力が制限される可能性があり、現実世界のシナリオでの実際の適用に課題が生じる可能性があります。
これらの問題を考慮して、この論文では、現実世界の霧画像回復のための Transformer ベースのウェーブレット ネットワーク (WaveletFormerNet) を提案します。
WaveletFormer ブロックと IWaveletFormer ブロックを提案することで離散ウェーブレット変換を Vision Transformer に埋め込み、ダウンサンプリングによる画像のテクスチャ ディテールの損失と色の歪みを軽減することを目的としています。
Transformer ブロックに並列畳み込みを導入し、軽量のメカニズムで複数の周波数情報をキャプチャできるようにします。
さらに、画像解像度を維持し、モデルの特徴抽出能力を強化するために、特徴集約モジュール (FAM) を実装しました。これにより、現実世界の霧のある画像回復タスクにおける優れたパフォーマンスにさらに貢献します。
広範な実験により、小規模なモデルの複雑さの定量的および定性的評価を通じて、WaveletFormerNet が最先端の方法よりも優れたパフォーマンスを発揮することが実証されました。
さらに、実際の塵埃除去およびアプリケーション テストにおける当社の満足のいく結果は、コンピュータ ビジョン関連アプリケーションにおける WaveletFormerNet の優れた一般化能力とパフォーマンスの向上を示しています。

要約(オリジナル)

Although deep convolutional neural networks have achieved remarkable success in removing synthetic fog, it is essential to be able to process images taken in complex foggy conditions, such as dense or non-homogeneous fog, in the real world. However, the haze distribution in the real world is complex, and downsampling can lead to color distortion or loss of detail in the output results as the resolution of a feature map or image resolution decreases. In addition to the challenges of obtaining sufficient training data, overfitting can also arise in deep learning techniques for foggy image processing, which can limit the generalization abilities of the model, posing challenges for its practical applications in real-world scenarios. Considering these issues, this paper proposes a Transformer-based wavelet network (WaveletFormerNet) for real-world foggy image recovery. We embed the discrete wavelet transform into the Vision Transformer by proposing the WaveletFormer and IWaveletFormer blocks, aiming to alleviate texture detail loss and color distortion in the image due to downsampling. We introduce parallel convolution in the Transformer block, which allows for the capture of multi-frequency information in a lightweight mechanism. Additionally, we have implemented a feature aggregation module (FAM) to maintain image resolution and enhance the feature extraction capacity of our model, further contributing to its impressive performance in real-world foggy image recovery tasks. Extensive experiments demonstrate that our WaveletFormerNet performs better than state-of-the-art methods, as shown through quantitative and qualitative evaluations of minor model complexity. Additionally, our satisfactory results on real-world dust removal and application tests showcase the superior generalization ability and improved performance of WaveletFormerNet in computer vision-related applications.

arxiv情報

著者 Shengli Zhang,Zhiyong Tao,Sen Lin
発行日 2024-01-09 13:42:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク