Equirectangular image construction method for standard CNNs for Semantic Segmentation

要約

360{\deg} の全天球画像は視野が広いという利点があり、通常は正距円筒図法画像として知られる平面上に投影されて処理されます。
正距円筒イメージ内のオブジェクトの形状は歪んでいたり、平行移動の不変性が欠けている場合があります。
さらに、ラベル付きの正距円筒画像の公的データセットはほとんどないため、標準的な CNN モデルが正距円筒画像を効果的に処理するのは困難です。
この問題に取り組むために、我々は透視画像を正距円筒図法画像に変換する方法論を提案する。
球中心図法と等距離円筒図法の逆変換を採用しています。
これにより、標準 CNN は、正距円筒画像内のさまざまな位置での歪み特徴を学習できるようになり、それによって正距円筒画像を意味論的に認識できるようになります。
透視画像の投影位置を決定するパラメーター {\phi} は、UNet、UNet++、SegNet、PSPNet、DeepLab v3+ などのさまざまなデータセットとモデルを使用して分析されています。
実験では、正距円筒イメージの効果的なセマンティック セグメンテーションに最適な {\phi} の値は、標準 CNN では 6{\pi}/16 であることが示されています。
他の 3 種類の手法 (教師あり学習、教師なし学習、データ拡張) と比較して、この論文で提案した手法は 43.76% という最良の平均 IoU 値を持っています。
この値は、他の 3 つの方法よりもそれぞれ 23.85%、10.7%、17.23% 高くなります。

要約(オリジナル)

360{\deg} spherical images have advantages of wide view field, and are typically projected on a planar plane for processing, which is known as equirectangular image. The object shape in equirectangular images can be distorted and lack translation invariance. In addition, there are few publicly dataset of equirectangular images with labels, which presents a challenge for standard CNNs models to process equirectangular images effectively. To tackle this problem, we propose a methodology for converting a perspective image into equirectangular image. The inverse transformation of the spherical center projection and the equidistant cylindrical projection are employed. This enables the standard CNNs to learn the distortion features at different positions in the equirectangular image and thereby gain the ability to semantically the equirectangular image. The parameter, {\phi}, which determines the projection position of the perspective image, has been analyzed using various datasets and models, such as UNet, UNet++, SegNet, PSPNet, and DeepLab v3+. The experiments demonstrate that an optimal value of {\phi} for effective semantic segmentation of equirectangular images is 6{\pi}/16 for standard CNNs. Compared with the other three types of methods (supervised learning, unsupervised learning and data augmentation), the method proposed in this paper has the best average IoU value of 43.76%. This value is 23.85%, 10.7% and 17.23% higher than those of other three methods, respectively.

arxiv情報

著者 Haoqian Chen,Jian Liu,Minghe Li,Kaiwen Jiang,Ziheng Xu,Rencheng Sun,Yi Sui
発行日 2023-10-13 14:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク