Scaling up Kernels in 3D CNNs

要約

2D CNNとビジョントランスフォーマー(ViT)の最近の進歩により、十分な受容野と高性能には大きなカーネルが不可欠であることが明らかになりました。
この文献に触発されて、3Dラージカーネル設計の実現可能性と課題を検証します。
3D CNNに大規模な畳み込みカーネルを適用すると、パフォーマンスと効率の両方でより困難になることを示します。
2D CNNでうまく機能する既存の手法は、一般的な深さ方向の畳み込みを含め、3Dネットワークでは効果がありません。
これらの障害を克服するために、空間的なグループ畳み込みとそのラージカーネルモジュール(SW-LKブロック)を紹介します。
ナイーブな3Dラージカーネルの最適化と効率の問題を回避します。
私たちのラージカーネル3DCNNネットワーク、つまりLargeKernel3Dは、セマンティックセグメンテーションやオブジェクト検出など、さまざまな3Dタスクで重要な改善をもたらします。
特に、ScanNetv2セマンティックセグメンテーションで73.9%mIoU、NDS nuScenesオブジェクト検出ベンチマークで72.8%を達成し、nuScenesLIDARリーダーボードで1位にランクされています。
シンプルなマルチモーダルフュージョンでさらに74.2%NDSにブーストされます。
LargeKernel3Dは、CNNやトランスフォーマーの同等品と同等またはそれ以上の結果を達成します。
初めて、大規模なカーネルが3Dネットワークにとって実現可能で不可欠であることを示します。

要約(オリジナル)

Recent advances in 2D CNNs and vision transformers (ViTs) reveal that large kernels are essential for enough receptive fields and high performance. Inspired by this literature, we examine the feasibility and challenges of 3D large-kernel designs. We demonstrate that applying large convolutional kernels in 3D CNNs has more difficulties in both performance and efficiency. Existing techniques that work well in 2D CNNs are ineffective in 3D networks, including the popular depth-wise convolutions. To overcome these obstacles, we present the spatial-wise group convolution and its large-kernel module (SW-LK block). It avoids the optimization and efficiency issues of naive 3D large kernels. Our large-kernel 3D CNN network, i.e., LargeKernel3D, yields non-trivial improvements on various 3D tasks, including semantic segmentation and object detection. Notably, it achieves 73.9% mIoU on the ScanNetv2 semantic segmentation and 72.8% NDS nuScenes object detection benchmarks, ranking 1st on the nuScenes LIDAR leaderboard. It is further boosted to 74.2% NDS with a simple multi-modal fusion. LargeKernel3D attains comparable or superior results than its CNN and transformer counterparts. For the first time, we show that large kernels are feasible and essential for 3D networks.

arxiv情報

著者 Yukang Chen,Jianhui Liu,Xiaojuan Qi,Xiangyu Zhang,Jian Sun,Jiaya Jia
発行日 2022-06-21 17:35:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク