RISurConv: Rotation Invariant Surface Attention-Augmented Convolutions for 3D Point Cloud Classification and Segmentation

要約

3D 点群深層学習の進歩にも関わらず、これまでの研究のほとんどは、変換と点の置換に対して不変である学習特徴に焦点を当てており、回転不変特性については非常に限られた努力しか注がれていませんでした。
最近のいくつかの研究では、精度の低下を犠牲にして回転の不変性を実現しています。
この研究では、3D 点群の分類とセグメンテーションのための、斬新で効果的な回転不変アーキテクチャを提案することで、このギャップを埋めます。
従来の点ごとの操作の代わりに、局所的な三角形表面を構築して、より詳細な表面構造をキャプチャします。これに基づいて、非常に表現力豊かな回転不変表面プロパティを抽出できます。その後、これを RISurConv という注意強化畳み込み演算子に統合して、自己経由で洗練された注意特徴を生成します。
-注目の層。
RISurConv に基づいて、高精度を維持しながら任意の回転に対して不変な 3D 点群解析用の効果的なニューラル ネットワークを構築します。
さまざまなベンチマークでパフォーマンスを検証し、以前の最先端技術を大幅に上回る最高の結果が得られました。
ModelNet40 では全体の精度 96.0% (+4.7%)、ScanObjectNN では 93.1% (+12.8%)、クラス精度は 91.5% (+3.6%)、82.7% (+5.1%)、および 78.5% (
+9.2%)、きめ細かい分類タスクの FG3D データセットの 3 つのカテゴリで。
さらに、セグメンテーション タスクでは、ShapeNet で 81.5% (+1.0%) mIoU を達成しました。
コードはここから入手できます: https://github.com/cszyzhang/RISurConv

要約(オリジナル)

Despite the progress on 3D point cloud deep learning, most prior works focus on learning features that are invariant to translation and point permutation, and very limited efforts have been devoted for rotation invariant property. Several recent studies achieve rotation invariance at the cost of lower accuracies. In this work, we close this gap by proposing a novel yet effective rotation invariant architecture for 3D point cloud classification and segmentation. Instead of traditional pointwise operations, we construct local triangle surfaces to capture more detailed surface structure, based on which we can extract highly expressive rotation invariant surface properties which are then integrated into an attention-augmented convolution operator named RISurConv to generate refined attention features via self-attention layers. Based on RISurConv we build an effective neural network for 3D point cloud analysis that is invariant to arbitrary rotations while maintaining high accuracy. We verify the performance on various benchmarks with supreme results obtained surpassing the previous state-of-the-art by a large margin. We achieve an overall accuracy of 96.0% (+4.7%) on ModelNet40, 93.1% (+12.8%) on ScanObjectNN, and class accuracies of 91.5% (+3.6%), 82.7% (+5.1%), and 78.5% (+9.2%) on the three categories of the FG3D dataset for the fine-grained classification task. Additionally, we achieve 81.5% (+1.0%) mIoU on ShapeNet for the segmentation task. Code is available here: https://github.com/cszyzhang/RISurConv

arxiv情報

著者 Zhiyuan Zhang,Licheng Yang,Zhiyu Xiang
発行日 2024-08-12 12:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク