要約
2D ラージ カーネルの成功を 3D 認識に拡張することは、次の理由により困難です。
2. データの不足と希薄性による最適化の難しさ。
以前の作業では、ブロック共有の重みを導入することで、カーネル サイズを 3x3x3 から 7x7x7 にスケールアップするための最初の一歩を踏み出しました。
ただし、ブロック内の機能のバリエーションを減らすために、適度なブロック サイズのみを採用し、21x21x21 のような大きなカーネルを実現できません。
この問題に対処するために、LinK と呼ばれる新しい方法を提案し、2 つのコア デザインを使用して畳み込みのような方法でより広い範囲の知覚受容野を実現します。
1 つ目は、静的カーネル マトリックスを線形カーネル ジェネレーターに置き換えることです。線形カーネル ジェネレーターは、空でないボクセルに対してのみ重みを適応的に提供します。
2 つ目は、オーバーラップしたブロックで事前計算された集計結果を再利用して、計算の複雑さを軽減することです。
提案された方法により、各ボクセルは 21x21x21 の範囲内でコンテキストを認識できるようになります。
2 つの基本的な知覚タスクである 3D オブジェクト検出と 3D セマンティック セグメンテーションに関する広範な実験により、この方法の有効性が実証されました。
特に、基本的な検出器である CenterPoint に Link ベースのバックボーンを組み込むだけで、nuScenes の 3D 検出ベンチマーク (LiDAR トラック) の公開リーダーボードで 1 位にランクされています。
また、SemanticKITTI テスト セットでは、強力なセグメンテーション ベースラインの mIoU を 2.7% 向上させました。
コードは https://github.com/MCG-NJU/LinkK で入手できます。
要約(オリジナル)
Extending the success of 2D Large Kernel to 3D perception is challenging due to: 1. the cubically-increasing overhead in processing 3D data; 2. the optimization difficulties from data scarcity and sparsity. Previous work has taken the first step to scale up the kernel size from 3x3x3 to 7x7x7 by introducing block-shared weights. However, to reduce the feature variations within a block, it only employs modest block size and fails to achieve larger kernels like the 21x21x21. To address this issue, we propose a new method, called LinK, to achieve a wider-range perception receptive field in a convolution-like manner with two core designs. The first is to replace the static kernel matrix with a linear kernel generator, which adaptively provides weights only for non-empty voxels. The second is to reuse the pre-computed aggregation results in the overlapped blocks to reduce computation complexity. The proposed method successfully enables each voxel to perceive context within a range of 21x21x21. Extensive experiments on two basic perception tasks, 3D object detection and 3D semantic segmentation, demonstrate the effectiveness of our method. Notably, we rank 1st on the public leaderboard of the 3D detection benchmark of nuScenes (LiDAR track), by simply incorporating a LinK-based backbone into the basic detector, CenterPoint. We also boost the strong segmentation baseline’s mIoU with 2.7% in the SemanticKITTI test set. Code is available at https://github.com/MCG-NJU/LinK.
arxiv情報
著者 | Tao Lu,Xiang Ding,Haisong Liu,Gangshan Wu,Limin Wang |
発行日 | 2023-03-28 16:02:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google