要約
畳み込みニューラルネットワーク(CNN)は、画像分類、セマンティックセグメンテーションなど、様々なビジョンタスクに広く用いられてきた。残念ながら、標準的な2次元CNNは、球が非構造格子であるため、パノラマ画像や球面投影などの球面信号にはあまり適していない。本論文では、球面信号を標準的なCNNで直接処理できるベクトルに変換する球面変換器を提案し、事前学習により多くのよく設計されたCNNアーキテクチャをタスクやデータセット間で再利用することができるようにするものである。このため、提案手法では、まずHEALPixなどの局所構造化サンプリング法を用いて、球面点とその隣接点の情報を用いて変換格子を構築し、その変換格子を介して球面信号をベクトルに変換する。球面変換モジュールを構築することで、複数のCNNアーキテクチャを直接利用することができる。我々は、球面MNIST認識、3Dオブジェクト分類、全方位画像セマンティックセグメンテーションのタスクで、我々のアプローチを評価する。3次元オブジェクトの分類では、さらに、性能を向上させるためにレンダリングに基づく投影法を提案し、回転に対する能力を向上させるために回転等変量モデルを提案する。3つのタスクに関する実験の結果、我々のアプローチが最先端の手法よりも優れた性能を達成することが示された。
要約(オリジナル)
Convolutional neural networks (CNNs) have been widely used in various vision tasks, e.g. image classification, semantic segmentation, etc. Unfortunately, standard 2D CNNs are not well suited for spherical signals such as panorama images or spherical projections, as the sphere is an unstructured grid. In this paper, we present Spherical Transformer which can transform spherical signals into vectors that can be directly processed by standard CNNs such that many well-designed CNNs architectures can be reused across tasks and datasets by pretraining. To this end, the proposed method first uses local structured sampling methods such as HEALPix to construct a transformer grid by using the information of spherical points and its adjacent points, and then transforms the spherical signals to the vectors through the grid. By building the Spherical Transformer module, we can use multiple CNN architectures directly. We evaluate our approach on the tasks of spherical MNIST recognition, 3D object classification and omnidirectional image semantic segmentation. For 3D object classification, we further propose a rendering-based projection method to improve the performance and a rotational-equivariant model to improve the anti-rotation ability. Experimental results on three tasks show that our approach achieves superior performance over state-of-the-art methods.
arxiv情報
著者 | Yuqi Liu,Yin Wang,Haikuan Du,Shen Cai |
発行日 | 2022-09-02 12:58:11+00:00 |
arxivサイト | arxiv_id(pdf) |