DHFormer: A Vision Transformer-Based Attention Module for Image Dehazing

要約

かすんだ状態で取得した画像には劣化が生じます。
このような画像のかすみを除去することは、厄介で不適切な問題です。
かすみの影響を軽減し、かすみのない画像を生成するために、多数の事前ベースおよび学習ベースのアプローチが提案されています。
従来の手法の多くは、シーンの深度に関する認識の欠如と、長距離の依存関係を捕捉できないという制約がありました。
この論文では、アテンションモジュールで残差学習とビジョントランスフォーマーを使用する方法を提案します。
これは本質的に 2 つのネットワークで構成されます。最初のネットワークでは、ネットワークはかすんだ画像と近似透過行列の比率を取得して残差マップを推定します。
2 番目のネットワークは、この残差画像を入力として受け取り、それを畳み込み層に通した後、生成された特徴マップに重ね合わせます。
次に、グローバル コンテキストと深度を認識するトランスフォーマー エンコーダーを通過して、チャネル アテンションを取得します。
次に、アテンション モジュールは、最終的なかすみのない画像を生成する前に、空間アテンション マップを推論します。
いくつかの定量的指標を含む実験結果は、提案された方法論の効率と拡張性を示しています。

要約(オリジナル)

Images acquired in hazy conditions have degradations induced in them. Dehazing such images is a vexed and ill-posed problem. Scores of prior-based and learning-based approaches have been proposed to mitigate the effect of haze and generate haze-free images. Many conventional methods are constrained by their lack of awareness regarding scene depth and their incapacity to capture long-range dependencies. In this paper, a method that uses residual learning and vision transformers in an attention module is proposed. It essentially comprises two networks: In the first one, the network takes the ratio of a hazy image and the approximated transmission matrix to estimate a residual map. The second network takes this residual image as input and passes it through convolution layers before superposing it on the generated feature maps. It is then passed through global context and depth-aware transformer encoders to obtain channel attention. The attention module then infers the spatial attention map before generating the final haze-free image. Experimental results, including several quantitative metrics, demonstrate the efficiency and scalability of the suggested methodology.

arxiv情報

著者 Abdul Wasi,O. Jeba Shiney
発行日 2023-12-15 17:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク