要約
3D シーンは多数の背景点によって支配されます。これは、主に前景オブジェクトに焦点を当てる必要がある検出タスクにとって冗長です。
この論文では、既存のスパース 3D CNN の主要なコンポーネントを分析し、3D CNN がデータの冗長性を無視し、ダウンサンプリング プロセスでそれをさらに増幅することを発見しました。
これに触発されて、空間刈り込み疎畳み込み (SPS-Conv) という名前の新しい畳み込み演算子を提案します。これには、空間刈り込み部分多様体疎畳み込み (SPSS-Conv) と空間刈り込み正則疎畳み込み (SPRS-Conv) の 2 つのバリアントが含まれます。
これは、冗長性を削減するために重要な領域を動的に決定するという考えに基づいています。
大きさが、学習ベースの方法の余分な計算を取り除く重要な領域を決定するための重要な手がかりとして役立つことを検証します。
提案されたモジュールは、追加のアーキテクチャ変更なしで、既存のスパース 3D CNN に簡単に組み込むことができます。
KITTI、Waymo、および nuScenes データセットでの広範な実験により、パフォーマンスを損なうことなく、GFLOP を 50% 以上削減できることが実証されました。
要約(オリジナル)
3D scenes are dominated by a large number of background points, which is redundant for the detection task that mainly needs to focus on foreground objects. In this paper, we analyze major components of existing sparse 3D CNNs and find that 3D CNNs ignore the redundancy of data and further amplify it in the down-sampling process, which brings a huge amount of extra and unnecessary computational overhead. Inspired by this, we propose a new convolution operator named spatial pruned sparse convolution (SPS-Conv), which includes two variants, spatial pruned submanifold sparse convolution (SPSS-Conv) and spatial pruned regular sparse convolution (SPRS-Conv), both of which are based on the idea of dynamically determining crucial areas for redundancy reduction. We validate that the magnitude can serve as important cues to determine crucial areas which get rid of the extra computations of learning-based methods. The proposed modules can easily be incorporated into existing sparse 3D CNNs without extra architectural modifications. Extensive experiments on the KITTI, Waymo and nuScenes datasets demonstrate that our method can achieve more than 50% reduction in GFLOPs without compromising the performance.
arxiv情報
著者 | Jianhui Liu,Yukang Chen,Xiaoqing Ye,Zhuotao Tian,Xiao Tan,Xiaojuan Qi |
発行日 | 2022-09-28 16:19:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google