Learning Image Deraining Transformer Network with Dynamic Dual Self-Attention

要約

最近、Transformer ベースのアーキテクチャは、非ローカル情報のモデル化における利点により、単一画像のデレインタスクに導入されています。
ただし、既存のアプローチは、クエリとキーの間のトークンの類似性をすべて使用する傾向があるため、高密度のセルフアテンション戦略に基づいてグローバル機能を統合する傾向があります。
実際、この戦略では、最も関連性の高い情報が無視され、特徴の集約中に無関係な表現によるぼやけた効果が引き起こされます。
この目的を達成するために、本論文では、ダイナミックなデュアルセルフアテンション(DDSA)を備えた効果的な画像ディレイントランスフォーマーを提案します。これは、鮮明な画像再構成をより容易にするために、密な注意戦略と疎な注意戦略の両方を組み合わせたものです。
具体的には、まばらな注意を実現するために、top-k 近似計算に基づいて最も有用な類似度値のみを選択します。
さらに、高品質のディレインされた結果を達成するためのより正確な表現をさらに取得するために、新しい空間強化フィードフォワード ネットワーク (SEFN) も開発します。
ベンチマーク データセットに関する広範な実験により、私たちが提案した方法の有効性が実証されています。

要約(オリジナル)

Recently, Transformer-based architecture has been introduced into single image deraining task due to its advantage in modeling non-local information. However, existing approaches tend to integrate global features based on a dense self-attention strategy since it tend to uses all similarities of the tokens between the queries and keys. In fact, this strategy leads to ignoring the most relevant information and inducing blurry effect by the irrelevant representations during the feature aggregation. To this end, this paper proposes an effective image deraining Transformer with dynamic dual self-attention (DDSA), which combines both dense and sparse attention strategies to better facilitate clear image reconstruction. Specifically, we only select the most useful similarity values based on top-k approximate calculation to achieve sparse attention. In addition, we also develop a novel spatial-enhanced feed-forward network (SEFN) to further obtain a more accurate representation for achieving high-quality derained results. Extensive experiments on benchmark datasets demonstrate the effectiveness of our proposed method.

arxiv情報

著者 Zhentao Fan,Hongming Chen,Yufeng Li
発行日 2023-08-15 13:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク