Rawformer: Unpaired Raw-to-Raw Translation for Learnable Camera ISPs

要約

最新のスマートフォンのカメラ品質は、キャプチャされた生の画像を強化する画像信号プロセッサ (ISP) に大きく依存しており、慎重に設計されたモジュールを利用して標準色空間 (sRGB など) でエンコードされた最終出力画像を生成します。
ニューラルベースのエンドツーエンドの学習可能な ISP は有望な進歩をもたらし、従来の ISP のほぼすべてのモジュールでよくあることですが、新しいカメラ モデルごとに広範な調整を必要とせずに適応する能力により、従来の ISP を置き換える可能性があります。
ただし、最近の学習ベースの ISP の主な課題は、入力 RAW 画像の形成に対するカメラ固有の特性の影響により、個別のカメラ モデルごとに大規模なペアのデータセットを収集する必要があることです。
この論文では、さまざまなカメラにわたる raw から raw への変換の不対学習のための新しい方法を導入することで、この課題に取り組みます。
具体的には、生から生への変換のための教師なしTransformerベースのエンコーダ/デコーダ手法であるRawformerを提案します。
特定のカメラでキャプチャされた生の画像をターゲット カメラに正確にマッピングし、学習可能な ISP をまだ見たことのない新しいカメラに一般化することを容易にします。
私たちの方法は、実際のカメラ データセットで優れたパフォーマンスを示し、以前の最先端技術と比較して高い精度を達成し、元の画像と変換された RAW 画像の間のより堅牢な相関関係を維持します。

要約(オリジナル)

Modern smartphone camera quality heavily relies on the image signal processor (ISP) to enhance captured raw images, utilizing carefully designed modules to produce final output images encoded in a standard color space (e.g., sRGB). Neural-based end-to-end learnable ISPs offer promising advancements, potentially replacing traditional ISPs with their ability to adapt without requiring extensive tuning for each new camera model, as is often the case for nearly every module in traditional ISPs. However, the key challenge with the recent learning-based ISPs is the urge to collect large paired datasets for each distinct camera model due to the influence of intrinsic camera characteristics on the formation of input raw images. This paper tackles this challenge by introducing a novel method for unpaired learning of raw-to-raw translation across diverse cameras. Specifically, we propose Rawformer, an unsupervised Transformer-based encoder-decoder method for raw-to-raw translation. It accurately maps raw images captured by a certain camera to the target camera, facilitating the generalization of learnable ISPs to new unseen cameras. Our method demonstrates superior performance on real camera datasets, achieving higher accuracy compared to previous state-of-the-art techniques, and preserving a more robust correlation between the original and translated raw images.

arxiv情報

著者 Georgy Perevozchikov,Nancy Mehta,Mahmoud Afifi,Radu Timofte
発行日 2024-04-16 16:17:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク