Long Range Pooling for 3D Large-Scale Scene Understanding

要約

畳み込みニューラル ネットワーク (CNN) における最近のビジョン トランスフォーマーと大規模なカーネル設計の成功に触発されて、このホワイト ペーパーでは、それらの成功の本質的な理由を分析し、探ります。
3D の大規模なシーンの理解にとって重要な 2 つの要因を主張します。より大きな受容野と、より大きな非線形性を伴う操作です。
前者は長距離コンテキストの提供を担当し、後者はネットワークの容量を強化できます。
上記の特性を達成するために、拡張最大プーリングを使用したシンプルで効果的な長距離プーリング(LRP)モジュールを提案します。これにより、ネットワークに大きな適応受容野が提供されます。
LRP にはパラメーターがほとんどなく、現在の CNN に簡単に追加できます。
また、LRP に基づいて、3D 理解のためのネットワーク アーキテクチャ全体、LRPNet を提示します。
私たちの主張を裏付けるためにアブレーション研究が提示され、LRPモジュールが大規模なカーネル畳み込みよりも優れた結果を達成するが、その非線形性により計算量が減少することが示されています。
また、さまざまなベンチマークで LRPNet の優位性を示しています。LRPNet は ScanNet で最高のパフォーマンスを発揮し、S3DIS と Matterport3D では他の CNN ベースの方法を凌駕しています。
コードは公開されます。

要約(オリジナル)

Inspired by the success of recent vision transformers and large kernel design in convolutional neural networks (CNNs), in this paper, we analyze and explore essential reasons for their success. We claim two factors that are critical for 3D large-scale scene understanding: a larger receptive field and operations with greater non-linearity. The former is responsible for providing long range contexts and the latter can enhance the capacity of the network. To achieve the above properties, we propose a simple yet effective long range pooling (LRP) module using dilation max pooling, which provides a network with a large adaptive receptive field. LRP has few parameters, and can be readily added to current CNNs. Also, based on LRP, we present an entire network architecture, LRPNet, for 3D understanding. Ablation studies are presented to support our claims, and show that the LRP module achieves better results than large kernel convolution yet with reduced computation, due to its nonlinearity. We also demonstrate the superiority of LRPNet on various benchmarks: LRPNet performs the best on ScanNet and surpasses other CNN-based methods on S3DIS and Matterport3D. Code will be made publicly available.

arxiv情報

著者 Xiang-Li Li,Meng-Hao Guo,Tai-Jiang Mu,Ralph R. Martin,Shi-Min Hu
発行日 2023-01-17 15:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク