TBSN: Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising

要約

ブラインドスポット ネットワーク (BSN) は、自己監視型画像ノイズ除去 (SSID) において広く普及しているネットワーク アーキテクチャです。
既存の BSN は、ほとんどが畳み込み層で実行されます。
トランスは畳み込みの限界に対する潜在的な解決策を提供し、さまざまな画像復元タスクで成功を実証していますが、そのアテンション メカニズムは盲点要件に違反する可能性があり、そのため SSID での適用が制限されます。
この論文では、ブラインドスポット要件を満たす変圧器オペレータを分析および再設計することにより、変圧器ベースのブラインドスポット ネットワーク (TBSN) を紹介します。
具体的には、TBSN は拡張 BSN のアーキテクチャ原則に従い、空間およびチャネル セルフ アテンション層を組み込んでネットワーク機能を強化します。
空間的自己注意の場合、精巧なマスクが注意マトリックスに適用されてその受容野が制限され、拡張畳み込みが模倣されます。
チャネル セルフ アテンションについては、マルチスケール アーキテクチャの深層でチャネル数が空間サイズよりも大きい場合、ブラインド スポット情報が漏洩する可能性があることが観察されています。
この影響を排除するために、チャネルをいくつかのグループに分割し、チャネル アテンションを個別に実行します。
さらに、TBSN をより小さなデノイザーに蒸留して、パフォーマンスを維持しながら計算効率を向上させる知識蒸留戦略を導入します。
現実世界の画像ノイズ除去データセットに関する広範な実験により、TBSN が受容野を大幅に拡張し、最先端の SSID 方式に対して良好なパフォーマンスを示すことが示されました。
コードと事前トレーニングされたモデルは、https://github.com/nagejacob/TBSN で公開されます。

要約(オリジナル)

Blind-spot networks (BSN) have been prevalent network architectures in self-supervised image denoising (SSID). Existing BSNs are mostly conducted with convolution layers. Although transformers offer potential solutions to the limitations of convolutions and have demonstrated success in various image restoration tasks, their attention mechanisms may violate the blind-spot requirement, thus restricting their applicability in SSID. In this paper, we present a transformer-based blind-spot network (TBSN) by analyzing and redesigning the transformer operators that meet the blind-spot requirement. Specifically, TBSN follows the architectural principles of dilated BSNs, and incorporates spatial as well as channel self-attention layers to enhance the network capability. For spatial self-attention, an elaborate mask is applied to the attention matrix to restrict its receptive field, thus mimicking the dilated convolution. For channel self-attention, we observe that it may leak the blind-spot information when the channel number is greater than spatial size in the deep layers of multi-scale architectures. To eliminate this effect, we divide the channel into several groups and perform channel attention separately. Furthermore, we introduce a knowledge distillation strategy that distills TBSN into smaller denoisers to improve computational efficiency while maintaining performance. Extensive experiments on real-world image denoising datasets show that TBSN largely extends the receptive field and exhibits favorable performance against state-of-the-art SSID methods. The code and pre-trained models will be publicly available at https://github.com/nagejacob/TBSN.

arxiv情報

著者 Junyi Li,Zhilu Zhang,Wangmeng Zuo
発行日 2024-04-11 15:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク