Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method based on Fast Fourier Convolution and ConvNeXt

要約

タイトル:FFCとConvNeXtを利用した高度な非均質の除霧方法

要約:

– 通常、霧は低コントラストや色の変化、構造の歪みを引き起こすことがある。
– 深層学習ベースのモデルは、同質の霧を取り除くことで優れたパフォーマンスを発揮することが多いが、非均質な霧の取り除きには失敗することが多い。
– この状況には2つの主要な要因がある。第一に、密な霧の複雑で均質でない分布のため、高品質な構造と色の特徴を回復することは特に濃霧地帯で課題となっている。第二に、非均質の霧の小規模なデータセットは、畳み込みニューラルネットワーク(CNN)ベースのモデルにおける霧の付いた画像とその対応する霧のない画像の特徴マッピングを信頼性を持って学習するために不十分である。
– これらの2つの課題に対処するため、2Dディスクリートウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)リジッドブロック、そして事前に学習されたConvNeXtモデルを活用する新しい二重分岐ネットワークを提案する。
– 具体的には、DWT-FFC周波数分岐では、DWTを活用して高周波の特徴をさらに把握することができる。また、FFC残差ブロックによって提供される広い受容野を利用することで、グローバルなコンテキスト情報を効果的に探索し、より良い知覚品質の画像を生成することができる。
– また、ImageNetで事前に学習されたConvNeXtを採用して、Res2Netとは異なる先行知識ブランチを作成することで、より多くの補助情報を学習し、より強力な汎化能力を獲得することができる。
– 提案手法の実現可能性と効果は、広範な実験と効果的な研究によって証明されている。また、コードはhttps://github.com/zhouh115/DWT-FFCで利用可能である。

要約(オリジナル)

Haze usually leads to deteriorated images with low contrast, color shift and structural distortion. We observe that many deep learning based models exhibit exceptional performance on removing homogeneous haze, but they usually fail to address the challenge of non-homogeneous dehazing. Two main factors account for this situation. Firstly, due to the intricate and non uniform distribution of dense haze, the recovery of structural and chromatic features with high fidelity is challenging, particularly in regions with heavy haze. Secondly, the existing small scale datasets for non-homogeneous dehazing are inadequate to support reliable learning of feature mappings between hazy images and their corresponding haze-free counterparts by convolutional neural network (CNN)-based models. To tackle these two challenges, we propose a novel two branch network that leverages 2D discrete wavelete transform (DWT), fast Fourier convolution (FFC) residual block and a pretrained ConvNeXt model. Specifically, in the DWT-FFC frequency branch, our model exploits DWT to capture more high-frequency features. Moreover, by taking advantage of the large receptive field provided by FFC residual blocks, our model is able to effectively explore global contextual information and produce images with better perceptual quality. In the prior knowledge branch, an ImageNet pretrained ConvNeXt as opposed to Res2Net is adopted. This enables our model to learn more supplementary information and acquire a stronger generalization ability. The feasibility and effectiveness of the proposed method is demonstrated via extensive experiments and ablation studies. The code is available at https://github.com/zhouh115/DWT-FFC.

arxiv情報

著者 Han Zhou,Wei Dong,Yangyi Liu,Jun Chen
発行日 2023-05-08 02:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク