Long Range Pooling for 3D Large-Scale Scene Understanding


畳み込みニューラル ネットワーク (CNN) における最近のビジョン トランスフォーマーと大規模なカーネル設計の成功に触発されて、このホワイト ペーパーでは、それらの成功の本質的な理由を分析し、探ります。
3D の大規模なシーンの理解にとって重要な 2 つの要因を主張します。より大きな受容野と、より大きな非線形性を伴う操作です。
LRP にはパラメーターがほとんどなく、現在の CNN に簡単に追加できます。
また、LRP に基づいて、3D 理解のためのネットワーク アーキテクチャ全体、LRPNet を提示します。
また、さまざまなベンチマークで LRPNet の優位性を示しています。LRPNet は ScanNet で最高のパフォーマンスを発揮し、S3DIS と Matterport3D では他の CNN ベースの方法を凌駕しています。


Inspired by the success of recent vision transformers and large kernel design in convolutional neural networks (CNNs), in this paper, we analyze and explore essential reasons for their success. We claim two factors that are critical for 3D large-scale scene understanding: a larger receptive field and operations with greater non-linearity. The former is responsible for providing long range contexts and the latter can enhance the capacity of the network. To achieve the above properties, we propose a simple yet effective long range pooling (LRP) module using dilation max pooling, which provides a network with a large adaptive receptive field. LRP has few parameters, and can be readily added to current CNNs. Also, based on LRP, we present an entire network architecture, LRPNet, for 3D understanding. Ablation studies are presented to support our claims, and show that the LRP module achieves better results than large kernel convolution yet with reduced computation, due to its nonlinearity. We also demonstrate the superiority of LRPNet on various benchmarks: LRPNet performs the best on ScanNet and surpasses other CNN-based methods on S3DIS and Matterport3D. Code will be made publicly available.


著者 Xiang-Li Li,Meng-Hao Guo,Tai-Jiang Mu,Ralph R. Martin,Shi-Min Hu
発行日 2023-01-17 15:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク