要約
単一画像のかすみ除去の目的は、かすみのある画像を復元し、鮮明で高品質のビジュアルを生成することです。
従来の畳み込みモデルは、受容野のサイズが限られているため、長距離の依存関係に苦労します。
Transformer はそのような依存関係の捕捉には優れていますが、特徴マップの解像度に関連した二次計算の複雑さにより、ピクセル間の高密度予測タスクにはあまり適していません。
さらに、ほとんどのモデルの固定カーネルまたはトークンは、さまざまなブラー サイズにうまく適応せず、その結果、かすみ除去パフォーマンスが最適化されていません。
この研究では、マルチスケール戦略を備えた並列ストライプ クロス アテンション (PCSA) に基づく新しいかすみ除去ネットワークを紹介します。
PCSA は、水平方向と垂直方向の関係を同時にキャプチャすることで長距離の依存関係を効率的に統合し、各ピクセルが拡張された空間領域からコンテキスト キューをキャプチャできるようにします。
さまざまなサイズや形状のブラーを柔軟に処理するために、各 PCSA でさまざまな畳み込みカーネル サイズとストリップ長を使用したチャネルごとの設計を採用し、さまざまなスケールでコンテキスト情報をキャプチャします。さらに、PCSA 内にソフトマックス ベースの適応重み付けメカニズムを組み込み、
より重要な機能を優先して活用します。
要約(オリジナル)
The objective of single image dehazing is to restore hazy images and produce clear, high-quality visuals. Traditional convolutional models struggle with long-range dependencies due to their limited receptive field size. While Transformers excel at capturing such dependencies, their quadratic computational complexity in relation to feature map resolution makes them less suitable for pixel-to-pixel dense prediction tasks. Moreover, fixed kernels or tokens in most models do not adapt well to varying blur sizes, resulting in suboptimal dehazing performance. In this study, we introduce a novel dehazing network based on Parallel Stripe Cross Attention (PCSA) with a multi-scale strategy. PCSA efficiently integrates long-range dependencies by simultaneously capturing horizontal and vertical relationships, allowing each pixel to capture contextual cues from an expanded spatial domain. To handle different sizes and shapes of blurs flexibly, We employs a channel-wise design with varying convolutional kernel sizes and strip lengths in each PCSA to capture context information at different scales.Additionally, we incorporate a softmax-based adaptive weighting mechanism within PCSA to prioritize and leverage more critical features.
arxiv情報
著者 | Lihan Tong,Yun Liu,Tian Ye,Weijia Li,Liyuan Chen,Erkang Chen |
発行日 | 2024-05-09 14:50:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google