Efficient Visual Computing with Camera RAW Snapshots

要約

従来のカメラは、センサーで画像放射照度をキャプチャし、画像信号プロセッサ (ISP) を使用して RGB 画像に変換します。
画像は、公共の安全監視や自動運転など、さまざまなアプリケーションで写真やビジュアル コンピューティング タスクに使用できます。
RAW 画像にはキャプチャされたすべての情報が含まれているため、ISP を使用した RAW から RGB への変換は、ビジュアル コンピューティングには必要ないと主張できます。
この論文では、何十年も使用されてきた ISP サブシステムなしで、RAW 画像を使用して高レベルの意味理解と低レベルの圧縮を実行するための新しい $\rho$-Vision フレームワークを提案します。
利用可能な RAW 画像データセットが不足していることを考慮して、最初に教師なし CycleGAN に基づく対になっていない CycleR2R ネットワークを開発し、対になっていない RAW および RGB 画像を使用してモジュラー展開 ISP および逆 ISP (invISP) モデルをトレーニングします。
次に、既存の RGB 画像データセットを使用してシミュレートされた RAW 画像 (simRAW) を柔軟に生成し、元々 RGB ドメイン用にトレーニングされたさまざまなモデルを微調整して、実際のカメラの RAW 画像を処理することができます。
さまざまなカメラからのスナップショットで、RAW ドメイン YOLOv3 と RAW 画像コンプレッサー (RIC) を使用して、RAW ドメインでのオブジェクト検出と画像圧縮機能を示します。
定量的な結果は、RAW ドメインのタスク推論が、RGB ドメインの処理と比較して、より優れた検出精度と圧縮を提供することを明らかにしています。
さらに、提案された \r{ho}-Vision は、さまざまなカメラ センサーとさまざまなタスク固有のモデルにわたって一般化されます。
ISP を排除する提案された $\rho$-Vision の追加の利点は、計算と処理時間の潜在的な削減です。

要約(オリジナル)

Conventional cameras capture image irradiance on a sensor and convert it to RGB images using an image signal processor (ISP). The images can then be used for photography or visual computing tasks in a variety of applications, such as public safety surveillance and autonomous driving. One can argue that since RAW images contain all the captured information, the conversion of RAW to RGB using an ISP is not necessary for visual computing. In this paper, we propose a novel $\rho$-Vision framework to perform high-level semantic understanding and low-level compression using RAW images without the ISP subsystem used for decades. Considering the scarcity of available RAW image datasets, we first develop an unpaired CycleR2R network based on unsupervised CycleGAN to train modular unrolled ISP and inverse ISP (invISP) models using unpaired RAW and RGB images. We can then flexibly generate simulated RAW images (simRAW) using any existing RGB image dataset and finetune different models originally trained for the RGB domain to process real-world camera RAW images. We demonstrate object detection and image compression capabilities in RAW-domain using RAW-domain YOLOv3 and RAW image compressor (RIC) on snapshots from various cameras. Quantitative results reveal that RAW-domain task inference provides better detection accuracy and compression compared to RGB-domain processing. Furthermore, the proposed \r{ho}-Vision generalizes across various camera sensors and different task-specific models. Additional advantages of the proposed $\rho$-Vision that eliminates the ISP are the potential reductions in computations and processing times.

arxiv情報

著者 Zhihao Li,Ming Lu,Xu Zhang,Xin Feng,M. Salman Asif,Zhan Ma
発行日 2022-12-15 12:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク