Deep Contrastive Patch-Based Subspace Learning for Camera Image Signal Processing

要約

カメラ画像信号処理(ISP)パイプラインは、様々な画像信号処理タスクにおいて魅力的な結果を得ることができる。それにもかかわらず、エンコーダ・デコーダのディープアーキテクチャをタスクに採用しているものを含め、これらの手法の大半は、通常、画像全体に一貫して適用される均一なフィルタを利用しています。しかし、色の強度と人工的なノイズは、単一の画像の2次元領域にわたってさえも、大きく異なって分布しているため、カメラ画像を不均質とみなすのは自然なことです。多様なモアレ・リンギング、モーションブラー、色にじみ、あるいはレンズによる投影歪みはすべて、不均質な画像アーチファクトのフィルタリング問題につながる可能性がある。本論文では、異種アーチファクト(特に画像ノイズ除去)に対してロバストなカメラISPを改善する、パッチベースの局所部分空間ディープニューラルネットワークを紹介する。我々の3重のディープ学習済みモデルをパッチサブスペース学習オートエンコーダ(Patch Subspace Learning Autoencoder: PSL-AE)と呼ぶ。PSL-AEモデルは、画像の歪みのレベルが均一であることを仮定しない。その代わりに、まず、アーチファクトの種類や歪みレベルが異なる、ノイズのある画像ときれいな画像のペアから抽出したパッチを対比学習によって符号化する。次に、各画像のパッチは、事前混合モデルを利用して、適切な潜在部分空間内の対応するソフトクラスタに符号化される。さらに、デコーダは、各クラスタに存在する画像パッチに対して特別に訓練された教師なし方法で訓練を受ける。実験では、合成されたアーチファクトだけでなく、現実的なSIDD画像ペアからも、強化された異種フィルタリングによる適応性と有効性が強調された。

要約(オリジナル)

Camera Image Signal Processing (ISP) pipelines can get appealing results in different image signal processing tasks. Nonetheless, the majority of these methods, including those employing an encoder-decoder deep architecture for the task, typically utilize a uniform filter applied consistently across the entire image. However, it is natural to view a camera image as heterogeneous, as the color intensity and the artificial noise are distributed vastly differently, even across the two-dimensional domain of a single image. Varied Moire ringing, motion blur, color-bleaching, or lens-based projection distortions can all potentially lead to a heterogeneous image artifact filtering problem. In this paper, we present a specific patch-based, local subspace deep neural network that improves Camera ISP to be robust to heterogeneous artifacts (especially image denoising). We call our three-fold deep-trained model the Patch Subspace Learning Autoencoder (PSL-AE). The PSL-AE model does not make assumptions regarding uniform levels of image distortion. Instead, it first encodes patches extracted from noisy a nd clean image pairs, with different artifact types or distortion levels, by contrastive learning. Then, the patches of each image are encoded into corresponding soft clusters within their suitable latent sub-space, utilizing a prior mixture model. Furthermore, the decoders undergo training in an unsupervised manner, specifically trained for the image patches present in each cluster. The experiments highlight the adaptability and efficacy through enhanced heterogeneous filtering, both from synthesized artifacts but also realistic SIDD image pairs.

arxiv情報

著者 Yunhao Yang,Yi Wang,Chandrajit Bajaj
発行日 2023-10-03 14:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク