Self-Supervised Image Denoising for Real-World Images with Context-aware Transformer

要約

タイトル:コンテキスト感知型トランスフォーマーを用いた現実世界の画像の自己教示型ノイズ除去

要約:
– 最近の深層学習の進展により、画像のノイズ除去は新たなレベルに到達している。
– 先行研究では畳み込みニューラルネットワーク(CNN)を用いた自己教示型ノイズ除去が一般的だが、受容野の局所性によって色のシフトやテクスチャの欠失が生じる問題がある。
– 本研究では、現実世界の画像のために新しい自己教示型ノイズ除去手法を提案する。この手法は、コンテキスト感知型デノイズトランスフォーマー(CADT)ユニットと二次ノイズエキストラクター(SNE)ブロックで構成されている。
– CADTはデュアルブランチ構造として設計されており、グローバルな情報を抽出するためにウィンドウベースのトランスフォーマーエンコーダーを使用するグローバルブランチと、小さな受容野でローカルな特徴を抽出するためにローカルブランチがある。
– CADTを基本構成要素として組み込んで階層的なネットワークを構築し、残差学習を通じてノイズ分布情報を直接学習し、第1段階のノイズ除去出力を得る。次に、二次的なグローバルノイズ抽出を行うために、低計算化されたSNEを設計する。最後に、ノイズ除去トランスフォーマー出力からブラインドスポットを収集して再構築し、最終的なノイズ除去した画像を形成する。
– 実験では、現実世界のSIDDベンチマークで、PSNR / SSIMがそれぞれ50.62 / 0.990で、現在の最先端の手法と競合し、わずかに0.17 / 0.001低い結果を出した。
– 公開されたsRGB、Raw-RGB、グレースケールのデータセットを用いた視覚的な比較により、提案されたデノイズトランスフォーマーは、追加知識(ノイズレベルやノイズタイプなど)を必要とせず、特にぼやけたテクスチャや低光画像において競合力のあるパフォーマンスを発揮することが証明された。

要約(オリジナル)

In recent years, the development of deep learning has been pushing image denoising to a new level. Among them, self-supervised denoising is increasingly popular because it does not require any prior knowledge. Most of the existing self-supervised methods are based on convolutional neural networks (CNN), which are restricted by the locality of the receptive field and would cause color shifts or textures loss. In this paper, we propose a novel Denoise Transformer for real-world image denoising, which is mainly constructed with Context-aware Denoise Transformer (CADT) units and Secondary Noise Extractor (SNE) block. CADT is designed as a dual-branch structure, where the global branch uses a window-based Transformer encoder to extract the global information, while the local branch focuses on the extraction of local features with small receptive field. By incorporating CADT as basic components, we build a hierarchical network to directly learn the noise distribution information through residual learning and obtain the first stage denoised output. Then, we design SNE in low computation for secondary global noise extraction. Finally the blind spots are collected from the Denoise Transformer output and reconstructed, forming the final denoised image. Extensive experiments on the real-world SIDD benchmark achieve 50.62/0.990 for PSNR/SSIM, which is competitive with the current state-of-the-art method and only 0.17/0.001 lower. Visual comparisons on public sRGB, Raw-RGB and greyscale datasets prove that our proposed Denoise Transformer has a competitive performance, especially on blurred textures and low-light images, without using additional knowledge, e.g., noise level or noise type, regarding the underlying unknown noise.

arxiv情報

著者 Dan Zhang,Fangfang Zhou
発行日 2023-04-04 08:30:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, eess.IV パーマリンク