Adapting CNNs for Fisheye Cameras without Retraining

要約

画像処理アプローチの大部分は、画像が透視投影内にあるか、透視投影に修正できることを前提としています。
ただし、多くのアプリケーションでは、より広い視野 (FOV) を備えた魚眼カメラなど、従来とは異なるカメラを使用することが有益です。
これらの大きな FOV 画像は、元の画像を大幅にトリミングしないと透視投影に修正できないという問題が発生します。
この問題に対処するために、Rectified Convolutions (RectConv) を提案します。
事前トレーニングされた畳み込みネットワークを、再トレーニングせずに新しい非透視画像で動作するように適応させるための新しいアプローチ。
ネットワークの畳み込み層を RectConv 層に置き換えることで、ネットワークは修正されたパッチと FOV 全体の両方を確認できるようになります。
公開されている 2 つのデータセットからの魚眼画像のセグメンテーションと検出を実行するために、複数の事前トレーニング済みネットワークを適応させる RectConv をデモします。
私たちのアプローチは追加のデータやトレーニングを必要とせず、カメラからキャプチャされたネイティブ画像を直接操作します。
私たちは、この取り組みが、遠近感のある画像に利用できる膨大なリソースを、広範囲のカメラ形状にわたって動作させるための一歩であると信じています。

要約(オリジナル)

The majority of image processing approaches assume images are in or can be rectified to a perspective projection. However, in many applications it is beneficial to use non conventional cameras, such as fisheye cameras, that have a larger field of view (FOV). The issue arises that these large-FOV images can’t be rectified to a perspective projection without significant cropping of the original image. To address this issue we propose Rectified Convolutions (RectConv); a new approach for adapting pre-trained convolutional networks to operate with new non-perspective images, without any retraining. Replacing the convolutional layers of the network with RectConv layers allows the network to see both rectified patches and the entire FOV. We demonstrate RectConv adapting multiple pre-trained networks to perform segmentation and detection on fisheye imagery from two publicly available datasets. Our approach requires no additional data or training, and operates directly on the native image as captured from the camera. We believe this work is a step toward adapting the vast resources available for perspective images to operate across a broad range of camera geometries.

arxiv情報

著者 Ryan Griffiths,Donald G. Dansereau
発行日 2024-04-12 01:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク