Accurate and lightweight dehazing via multi-receptive-field non-local network and novel contrastive regularization


さらに、多くの視覚タスクで画期的な進歩をもたらした非ローカル ネットワークは、画像のかすみ除去には適切に適用されていません。
具体的には、マルチストリーム特徴抽出 (MSFE) サブブロックを設計します。これには、マルチストリーム特徴抽出のための異なる受容野 (つまり、$1\times 1$、$3\times 3$、$5\times 5$) を持つ 3 つの並列畳み込みが含まれます。
MSFE に続いて、アテンション サブブロックを使用して、モデルが重要なチャネル/領域に適応的に焦点を合わせられるようにします。
MSFE およびアテンション サブブロックは、MSFAB を構成します。
次に、クエリを超えた長距離依存関係をキャプチャできるクロス非ローカル ブロック (CNLB) を設計します。
クエリ ブランチの同じ入力ソースの代わりに、キー ブランチと値ブランチは、より先行する機能を融合することによって強化されます。
CNLB は、空間ピラミッド ダウンサンプリング (SPDS) 戦略を活用して、パフォーマンスを犠牲にすることなく計算とメモリの消費量を削減することにより、計算を容易にします。
最後に重要なことですが、表現空間内の高レベルの意味情報を無視し、低レベルの詳細を強調することによって、新しい詳細に焦点を当てたコントラスト正則化 (DFCR) が提示されます。
包括的な実験結果は、提案された MRFNLN モデルが 150 万未満のパラメーターを使用する最近の最先端のかすみ除去方法よりも優れていることを示しています。


Recently, deep learning-based methods have dominated image dehazing domain. Although very competitive dehazing performance has been achieved with sophisticated models, effective solutions for extracting useful features are still under-explored. In addition, non-local network, which has made a breakthrough in many vision tasks, has not been appropriately applied to image dehazing. Thus, a multi-receptive-field non-local network (MRFNLN) consisting of the multi-stream feature attention block (MSFAB) and cross non-local block (CNLB) is presented in this paper. We start with extracting richer features for dehazing. Specifically, we design a multi-stream feature extraction (MSFE) sub-block, which contains three parallel convolutions with different receptive fields (i.e., $1\times 1$, $3\times 3$, $5\times 5$) for extracting multi-scale features. Following MSFE, we employ an attention sub-block to make the model adaptively focus on important channels/regions. The MSFE and attention sub-blocks constitute our MSFAB. Then, we design a cross non-local block (CNLB), which can capture long-range dependencies beyond the query. Instead of the same input source of query branch, the key and value branches are enhanced by fusing more preceding features. CNLB is computation-friendly by leveraging a spatial pyramid down-sampling (SPDS) strategy to reduce the computation and memory consumption without sacrificing the performance. Last but not least, a novel detail-focused contrastive regularization (DFCR) is presented by emphasizing the low-level details and ignoring the high-level semantic information in the representation space. Comprehensive experimental results demonstrate that the proposed MRFNLN model outperforms recent state-of-the-art dehazing methods with less than 1.5 Million parameters.


著者 Zewei He,Zixuan Chen,Ziqian Lu,Xuecheng Sun,Zhe-Ming Lu
発行日 2023-09-28 14:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク