要約
PointNet++は、点群理解のために最も影響力のあるニューラル・アーキテクチャの一つである。PointNet++の精度は、PointMLPやPoint Transformerといった最近のネットワークに大きく追い越されていますが、性能向上の大部分は、アーキテクチャの革新というよりも、学習戦略の改善、すなわちデータの増強や最適化技術、モデルサイズの増加によるものであることが分かっています。このように、PointNet++の潜在能力はまだ十分に引き出されていないのです。本研究では、モデルの学習とスケーリング戦略の体系的な研究を通じて、従来のPointNet++を再検討し、2つの大きな貢献をしています。まず、PointNet++の性能を大幅に向上させる一連の改良型学習戦略を提案する。例えば、アーキテクチャを変更することなく、ScanObjectNNオブジェクト分類におけるPointNet++の総合精度(OA)を77.9%から86.1%に向上させ、最先端のPointMLPを上回ることを示す。次に、PointNet++に逆残差ボトルネック設計と分離可能なMLPを導入し、効率的かつ効果的なモデル拡張を可能にした上で、PointNetsの次期バージョンであるPointNeXtを提案しました。PointNeXtは柔軟にスケールアップすることができ、3D分類とセグメンテーションの両方のタスクにおいて、最先端の手法を凌駕する性能を発揮します。分類では、PointNeXtはScanObjectNNで$87.7%$の総合精度を達成し、PointMLPを$2.3%$上回り、推論は$10回$高速であった。また、セマンティックセグメンテーションでは、S3DIS (6-fold cross-validation) において、PointNeXt は $74.9%$ 平均 IoU と、最近の Point Transformer を上回る最新鋭の性能を確立しています。コードとモデルは、https://github.com/guochengqian/pointnext で公開されています。
要約(オリジナル)
PointNet++ is one of the most influential neural architectures for point cloud understanding. Although the accuracy of PointNet++ has been largely surpassed by recent networks such as PointMLP and Point Transformer, we find that a large portion of the performance gain is due to improved training strategies, i.e. data augmentation and optimization techniques, and increased model sizes rather than architectural innovations. Thus, the full potential of PointNet++ has yet to be explored. In this work, we revisit the classical PointNet++ through a systematic study of model training and scaling strategies, and offer two major contributions. First, we propose a set of improved training strategies that significantly improve PointNet++ performance. For example, we show that, without any change in architecture, the overall accuracy (OA) of PointNet++ on ScanObjectNN object classification can be raised from 77.9\% to 86.1\%, even outperforming state-of-the-art PointMLP. Second, we introduce an inverted residual bottleneck design and separable MLPs into PointNet++ to enable efficient and effective model scaling and propose PointNeXt, the next version of PointNets. PointNeXt can be flexibly scaled up and outperforms state-of-the-art methods on both 3D classification and segmentation tasks. For classification, PointNeXt reaches an overall accuracy of $87.7\%$ on ScanObjectNN, surpassing PointMLP by $2.3\%$, while being $10 \times$ faster in inference. For semantic segmentation, PointNeXt establishes a new state-of-the-art performance with $74.9\%$ mean IoU on S3DIS (6-fold cross-validation), being superior to the recent Point Transformer. The code and models are available at https://github.com/guochengqian/pointnext.
arxiv情報
著者 | Guocheng Qian,Yuchen Li,Houwen Peng,Jinjie Mai,Hasan Abed Al Kader Hammoud,Mohamed Elhoseiny,Bernard Ghanem |
発行日 | 2022-06-09 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |