要約
最近のブレ除去ネットワークは、ぼやけた画像から鮮明な画像を効果的に復元します。
ただし、未知の領域への一般化に苦労することがよくあります。
さらに、これらのモデルは通常、PSNR や SSIM などの歪みメトリックに重点を置き、人間の知覚に合わせたメトリックの重要な側面を無視しています。
これらの制限に対処するために、我々は、拡張近傍注意に基づいたブレ除去トランスフォーマーである DeblurDiNAT を提案します。
まず、DeblurDiNAT は、交互の膨張係数パラダイムを採用して、ローカルとグローバルの両方のぼやけたパターンを捕捉し、一般化と知覚の明瞭さを強化します。
2 番目に、ローカル クロスチャネル学習器は、Transformer ブロックが隣接するチャネル間の短距離関係を理解するのに役立ちます。
さらに、シンプルかつ効果的な設計の線形フィードフォワード ネットワークを紹介します。
最後に、既存のアプローチの代替としてデュアルステージ機能融合モジュールが導入され、ネットワーク レベル全体でマルチスケールの視覚情報を効率的に処理します。
最先端のモデルと比較して、当社のコンパクトな DeblurDiNAT は、優れた一般化機能を実証し、好ましいモデル サイズを維持しながら、知覚メトリクスにおいて顕著なパフォーマンスを達成します。
要約(オリジナル)
Recent deblurring networks have effectively restored clear images from the blurred ones. However, they often struggle with generalization to unknown domains. Moreover, these models typically focus on distortion metrics such as PSNR and SSIM, neglecting the critical aspect of metrics aligned with human perception. To address these limitations, we propose DeblurDiNAT, a deblurring Transformer based on Dilated Neighborhood Attention. First, DeblurDiNAT employs an alternating dilation factor paradigm to capture both local and global blurred patterns, enhancing generalization and perceptual clarity. Second, a local cross-channel learner aids the Transformer block to understand the short-range relationships between adjacent channels. Additionally, we present a linear feed-forward network with a simple while effective design. Finally, a dual-stage feature fusion module is introduced as an alternative to the existing approach, which efficiently process multi-scale visual information across network levels. Compared to state-of-the-art models, our compact DeblurDiNAT demonstrates superior generalization capabilities and achieves remarkable performance in perceptual metrics, while maintaining a favorable model size.
arxiv情報
著者 | Hanzhou Liu,Binghan Li,Chengkai Liu,Mi Lu |
発行日 | 2025-01-15 18:45:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google