要約
リソースに制約のある低電力デバイスに現在のコンピューター ビジョン (CV) モデルを展開するために、最近の研究では、イメージ シグナル プロセッサ (ISP) を部分的/完全にバイパスし、大幅な成果を上げようとするセンサー内およびピクセル内コンピューティングのアプローチが提案されています。
初期の畳み込みニューラル ネットワーク (CNN) レイヤーでアクティベーション マップをダウンサンプリングすることにより、イメージ センサーと CV 処理ユニットの間の帯域幅を削減します。
ただし、未加工の画像に対する直接推論は、トレーニングに使用される ISP 処理画像と比較して、画像センサーによってキャプチャされた未加工の画像の共分散の違いにより、テストの精度を低下させます。
さらに、ほとんどの (すべてではないにしても) 大規模なオープンソース データセットは RGB 画像で構成されているため、未加工の画像で深い CV モデルをトレーニングすることは困難です。
この懸念を軽減するために、ISP パイプラインを反転することを提案します。これにより、任意のデータセットの RGB 画像を未加工の対応する画像に変換し、未加工画像でのモデル トレーニングを有効にすることができます。
COCO データセットの raw バージョンをリリースします。これは、一般的な高レベルのビジョン タスクの大規模なベンチマークです。
ISP を使用しない CV システムの場合、これらの生の画像をトレーニングすると、従来の ISP で処理された RGB データセットを使用したトレーニングに依存する場合と比較して、ビジュアル ウェイク ワークス (VWW) データセットのテスト精度が 7.1% 向上します。
ISP を使用しない CV モデルの精度をさらに向上させ、インセンサー/インピクセル コンピューティングによって得られるエネルギーと帯域幅の利点を高めるために、エネルギー効率の高い形式のアナログ インピクセル デモザイクを提案します。
ピクセル CNN 計算。
PASCALRAW データセットから実際のセンサーによってキャプチャされた生の画像で評価すると、私たちのアプローチにより、mAP が 8.1% 増加します。
最後に、3 つのクラスを構成する新しい PASCALRAW データセットに対して、それぞれ 30 ショットの少数ショット学習の新しいアプリケーションを使用することにより、mAP がさらに 20.5% 増加することを示します。
要約(オリジナル)
In order to deploy current computer vision (CV) models on resource-constrained low-power devices, recent works have proposed in-sensor and in-pixel computing approaches that try to partly/fully bypass the image signal processor (ISP) and yield significant bandwidth reduction between the image sensor and the CV processing unit by downsampling the activation maps in the initial convolutional neural network (CNN) layers. However, direct inference on the raw images degrades the test accuracy due to the difference in covariance of the raw images captured by the image sensors compared to the ISP-processed images used for training. Moreover, it is difficult to train deep CV models on raw images, because most (if not all) large-scale open-source datasets consist of RGB images. To mitigate this concern, we propose to invert the ISP pipeline, which can convert the RGB images of any dataset to its raw counterparts, and enable model training on raw images. We release the raw version of the COCO dataset, a large-scale benchmark for generic high-level vision tasks. For ISP-less CV systems, training on these raw images result in a 7.1% increase in test accuracy on the visual wake works (VWW) dataset compared to relying on training with traditional ISP-processed RGB datasets. To further improve the accuracy of ISP-less CV models and to increase the energy and bandwidth benefits obtained by in-sensor/in-pixel computing, we propose an energy-efficient form of analog in-pixel demosaicing that may be coupled with in-pixel CNN computations. When evaluated on raw images captured by real sensors from the PASCALRAW dataset, our approach results in a 8.1% increase in mAP. Lastly, we demonstrate a further 20.5% increase in mAP by using a novel application of few-shot learning with thirty shots each for the novel PASCALRAW dataset, constituting 3 classes.
arxiv情報
著者 | Gourav Datta,Zeyu Liu,Zihan Yin,Linyu Sun,Akhilesh R. Jaiswal,Peter A. Beerel |
発行日 | 2022-10-11 13:47:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google