要約
屋外の画像は、雨、霧、ノイズによって深刻な劣化が発生することが多く、画質が損なわれ、高度なタスクが困難になります。
現在の画像復元方法は、効率を維持しながら複雑な劣化に対処するのに苦労しています。
この論文では、U-Net フレームワーク内で多次元の動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを紹介します。
トランスフォーマーのグローバル モデリング機能と畳み込みのローカル モデリング機能を活用するために、エンコーダー/デコーダーに唯一の CNN を統合し、潜在層に唯一のトランスフォーマーを統合します。
さらに、さまざまな劣化した入力を効率的に捕捉するために、選択された多次元の動的注意を備えた畳み込みカーネルを設計します。
転置セルフアテンションを備えたトランスフォーマー ブロックにより、効率を維持しながらグローバルな特徴抽出がさらに強化されます。
広範な実験により、私たちの方法は、ディレイニング、ブレ除去、ノイズ除去、かすみ除去、強調という 5 つの画像復元タスク全体でパフォーマンスと計算の複雑さの間でより良いバランスを達成するだけでなく、高レベルのビジョン タスクでも優れたパフォーマンスを達成できることが実証されています。
ソースコードは https://github.com/House-yuyu/MDDA-former で入手できます。
要約(オリジナル)
Outdoor images often suffer from severe degradation due to rain, haze, and noise, impairing image quality and challenging high-level tasks. Current image restoration methods struggle to handle complex degradation while maintaining efficiency. This paper introduces a novel image restoration architecture that combines multi-dimensional dynamic attention and self-attention within a U-Net framework. To leverage the global modeling capabilities of transformers and the local modeling capabilities of convolutions, we integrate sole CNNs in the encoder-decoder and sole transformers in the latent layer. Additionally, we design convolutional kernels with selected multi-dimensional dynamic attention to capture diverse degraded inputs efficiently. A transformer block with transposed self-attention further enhances global feature extraction while maintaining efficiency. Extensive experiments demonstrate that our method achieves a better balance between performance and computational complexity across five image restoration tasks: deraining, deblurring, denoising, dehazing, and enhancement, as well as superior performance for high-level vision tasks. The source code will be available at https://github.com/House-yuyu/MDDA-former.
arxiv情報
著者 | Huan Zhang,Xu Zhang,Nian Cai,Jianglei Di,Yun Zhang |
発行日 | 2024-11-12 15:58:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google