要約
困難な環境 (非常に暗い、ぼやけている、またはダイナミック レンジが広い条件など) で機能する画像認識モデルが役立つ必要があります。
ただし、そのような環境向けのトレーニング データセットの作成は、データの収集と注釈が難しいため、費用がかかり、困難です。
入手が困難なデータセットを必要とせずに、堅牢なモデルを取得できれば望ましいことです。
単純なアプローチの 1 つは、単純なシーンの標準 RGB (sRGB) 画像に色のジッターやぼかしなどのデータ拡張を適用することです。
残念ながら、このアプローチでは、イメージ シグナル プロセッサ (ISP) の非線形性とイメージ センサーのノイズ特性が考慮されていないため、ピクセル強度とノイズ分布に関して現実的なイメージを生成するのに苦労しています。
代わりに、ノイズを考慮した RAW 画像拡張方法を提案します。
基本的に、非線形 ISP を適用する前に、RAW 画像に色のジッターとぼかしの増強を適用し、現実的な強度を生み出します。
さらに、増強によって生じるノイズ特性のドメインギャップを較正するノイズ量アラインメント法を導入します。
提案されたノイズを考慮した RAW 拡張メソッドは、単純なトレーニング データのみを使用して、困難な環境で画像認識の精度を 2 倍にすることを示します。
要約(オリジナル)
Image recognition models that can work in challenging environments (e.g., extremely dark, blurry, or high dynamic range conditions) must be useful. However, creating a training dataset for such environments is expensive and hard due to the difficulties of data collection and annotation. It is desirable if we could get a robust model without the need of hard-to-obtain dataset. One simple approach is to apply data augmentation such as color jitter and blur to standard RGB (sRGB) images in simple scenes. Unfortunately, this approach struggles to yield realistic images in terms of pixel intensity and noise distribution due to not considering the non-linearity of Image Signal Processor (ISP) and noise characteristics of an image sensor. Instead, we propose a noise-accounted RAW image augmentation method. In essence, color jitter and blur augmentation are applied to a RAW image before applying non-linear ISP, yielding realistic intensity. Furthermore, we introduce a noise amount alignment method that calibrates the domain gap in noise property caused by the augmentation. We show that our proposed noise-accounted RAW augmentation method doubles the image recognition accuracy in challenging environments only with simple training data.
arxiv情報
著者 | Masakazu Yoshimura,Junji Otsuka,Atsushi Irie,Takeshi Ohashi |
発行日 | 2022-10-28 10:33:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google