要約
従来のカメラは、センサー上で画像放射照度をキャプチャし、画像信号プロセッサ (ISP) を使用してそれを RGB 画像に変換します。
これらの画像は、公共の安全監視や自動運転など、さまざまな用途で写真撮影やビジュアル コンピューティング タスクに使用できます。
RAW 画像にはキャプチャされたすべての情報が含まれているため、ビジュアル コンピューティングには ISP を使用した RAW から RGB への変換は必要ないと主張する人もいます。
この論文では、数十年にわたって使用されてきた ISP サブシステムを使用せずに、RAW 画像を使用して高レベルの意味理解と低レベル圧縮を実行する新しい $\rho$-Vision フレームワークを提案します。
利用可能な RAW 画像データセットの不足を考慮して、まず、教師なし CycleGAN に基づいてペアになっていない CycleR2R ネットワークを開発し、ペアになっていない RAW および RGB 画像を使用してモジュラー アンロール ISP および逆 ISP (invISP) モデルをトレーニングします。
その後、既存の RGB 画像データセットを使用してシミュレーション RAW 画像 (simRAW) を柔軟に生成し、RGB ドメイン用に元々トレーニングされたさまざまなモデルを微調整して、現実世界のカメラ RAW 画像を処理できます。
RAW ドメイン YOLOv3 と RAW 画像圧縮器 (RIC) をさまざまなカメラからのスナップショットで使用して、RAW ドメインでのオブジェクト検出と画像圧縮機能をデモンストレーションします。
定量的な結果は、RAW ドメインのタスク推論が RGB ドメイン処理と比較して優れた検出精度と圧縮を提供することを明らかにしています。
さらに、提案された \r{ho}-Vision は、さまざまなカメラ センサーとさまざまなタスク固有のモデルにわたって一般化されます。
ISP を排除する提案された $\rho$-Vision のさらなる利点は、計算と処理時間の潜在的な削減です。
要約(オリジナル)
Conventional cameras capture image irradiance on a sensor and convert it to RGB images using an image signal processor (ISP). The images can then be used for photography or visual computing tasks in a variety of applications, such as public safety surveillance and autonomous driving. One can argue that since RAW images contain all the captured information, the conversion of RAW to RGB using an ISP is not necessary for visual computing. In this paper, we propose a novel $\rho$-Vision framework to perform high-level semantic understanding and low-level compression using RAW images without the ISP subsystem used for decades. Considering the scarcity of available RAW image datasets, we first develop an unpaired CycleR2R network based on unsupervised CycleGAN to train modular unrolled ISP and inverse ISP (invISP) models using unpaired RAW and RGB images. We can then flexibly generate simulated RAW images (simRAW) using any existing RGB image dataset and finetune different models originally trained for the RGB domain to process real-world camera RAW images. We demonstrate object detection and image compression capabilities in RAW-domain using RAW-domain YOLOv3 and RAW image compressor (RIC) on snapshots from various cameras. Quantitative results reveal that RAW-domain task inference provides better detection accuracy and compression compared to RGB-domain processing. Furthermore, the proposed \r{ho}-Vision generalizes across various camera sensors and different task-specific models. Additional advantages of the proposed $\rho$-Vision that eliminates the ISP are the potential reductions in computations and processing times.
arxiv情報
著者 | Zhihao Li,Ming Lu,Xu Zhang,Xin Feng,M. Salman Asif,Zhan Ma |
発行日 | 2024-01-25 16:47:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google