要約
畳み込みカーネルは畳み込みニューラルネットワーク(CNN)の基本的な構造要素である。ここ数年、多くの用途で魚眼カメラへの関心が高まっている。しかし、これらのカメラの半径対称投影モデルは、特に視野が非常に大きい場合に、CNNの性能に影響を与える高い歪みを生成する。本研究では、カメラのキャリブレーションを活用し、それに応じて畳み込みカーネルを変形させ、歪みに適応させる方法を提案することで、この問題に取り組む。そうすることで、畳み込みの受容野は遠近画像における標準的な畳み込みと同様になり、大規模な遠近データセットにおいて事前に訓練されたネットワークを活用することができる。我々は、小さなデータセットで簡単な微調整を行うだけで、較正された魚眼に対するネットワークの性能が、奥行き推定と意味的セグメンテーションにおいて、標準的な畳み込みと比較してどのように向上するかを示す。
要約(オリジナル)
Convolution kernels are the basic structural component of convolutional neural networks (CNNs). In the last years there has been a growing interest in fisheye cameras for many applications. However, the radially symmetric projection model of these cameras produces high distortions that affect the performance of CNNs, especially when the field of view is very large. In this work, we tackle this problem by proposing a method that leverages the calibration of cameras to deform the convolution kernel accordingly and adapt to the distortion. That way, the receptive field of the convolution is similar to standard convolutions in perspective images, allowing us to take advantage of pre-trained networks in large perspective datasets. We show how, with just a brief fine-tuning stage in a small dataset, we improve the performance of the network for the calibrated fisheye with respect to standard convolutions in depth estimation and semantic segmentation.
arxiv情報
著者 | Bruno Berenguel-Baeta,Maria Santos-Villafranca,Jesus Bermudez-Cameo,Alejandro Perez-Yus,Jose J. Guerrero |
発行日 | 2024-02-02 14:44:50+00:00 |
arxivサイト | arxiv_id(pdf) |