要約
2D CNN の最近の進歩により、大きなカーネルが重要であることが明らかになりました。
ただし、3D CNN で大規模な畳み込みカーネルを直接適用すると、2D で成功したモジュール設計が、一般的な深さ方向の畳み込みを含む 3D ネットワークでは驚くほど効果がなくなるという深刻な問題が発生します。
この重要な課題に対処するために、代わりに空間ワイズ パーティション畳み込みとその大規模カーネル モジュールを提案します。
その結果、単純な 3D の大きなカーネルの最適化と効率の問題が回避されます。
大規模なカーネル 3D CNN ネットワークである LargeKernel3D は、セマンティック セグメンテーションとオブジェクト検出の 3D タスクを大幅に改善します。
ScanNetv2 セマンティック セグメンテーションで 73.9% の mIoU を達成し、NDS nuScenes オブジェクト検出ベンチマークで 72.8% を達成し、nuScenes LIDAR リーダーボードで 1 位にランクされています。
シンプルなマルチモーダル フュージョンにより、パフォーマンスはさらに 74.2% NDS に向上します。
さらに、LargeKernel3D は、Waymo 3D オブジェクト検出で 17x17x17 カーネル サイズにスケーリングできます。
初めて、大規模なカーネルが実現可能であり、3D ビジュアル タスクに不可欠であることを示します。
要約(オリジナル)
Recent advance in 2D CNNs has revealed that large kernels are important. However, when directly applying large convolutional kernels in 3D CNNs, severe difficulties are met, where those successful module designs in 2D become surprisingly ineffective on 3D networks, including the popular depth-wise convolution. To address this vital challenge, we instead propose the spatial-wise partition convolution and its large-kernel module. As a result, it avoids the optimization and efficiency issues of naive 3D large kernels. Our large-kernel 3D CNN network, LargeKernel3D, yields notable improvement in 3D tasks of semantic segmentation and object detection. It achieves 73.9% mIoU on the ScanNetv2 semantic segmentation and 72.8% NDS nuScenes object detection benchmarks, ranking 1st on the nuScenes LIDAR leaderboard. The performance further boosts to 74.2% NDS with a simple multi-modal fusion. In addition, LargeKernel3D can be scaled to 17x17x17 kernel size on Waymo 3D object detection. For the first time, we show that large kernels are feasible and essential for 3D visual tasks.
arxiv情報
著者 | Yukang Chen,Jianhui Liu,Xiangyu Zhang,Xiaojuan Qi,Jiaya Jia |
発行日 | 2023-03-22 12:43:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google