要約
3D オブジェクト検出器は通常、アンカーやセンターなどの手作りのプロキシに依存し、よく研究された 2D フレームワークを 3D に変換します。
したがって、疎なボクセルの特徴は、高密度化され、高密度の予測ヘッドによって処理される必要があり、必然的に余分な計算が必要になります。
この論文では、代わりに、完全にまばらな 3D オブジェクト検出のために VoxelNext を提案します。
私たちの核となる洞察は、手作りのプロキシに頼らずに、まばらなボクセルの特徴に基づいてオブジェクトを直接予測することです。
当社の強力なスパース畳み込みネットワーク VoxelNeXt は、ボクセル機能全体を通じて 3D オブジェクトを検出および追跡します。
これは、疎から密への変換や NMS の後処理を必要としない、洗練された効率的なフレームワークです。
私たちの方法は、nuScenes データセットの他のメインフレーム検出器よりも優れた速度と精度のトレードオフを実現します。
初めて、完全にまばらなボクセルベースの表現が LIDAR 3D オブジェクトの検出と追跡に適切に機能することを示します。
nuScenes、Waymo、および Argoverse2 ベンチマークでの広範な実験により、私たちのアプローチの有効性が検証されました。
付属品がなければ、モデルは nuScenes 追跡テスト ベンチマークで既存のすべての LIDAR メソッドよりも優れています。
要約(オリジナル)
3D object detectors usually rely on hand-crafted proxies, e.g., anchors or centers, and translate well-studied 2D frameworks to 3D. Thus, sparse voxel features need to be densified and processed by dense prediction heads, which inevitably costs extra computation. In this paper, we instead propose VoxelNext for fully sparse 3D object detection. Our core insight is to predict objects directly based on sparse voxel features, without relying on hand-crafted proxies. Our strong sparse convolutional network VoxelNeXt detects and tracks 3D objects through voxel features entirely. It is an elegant and efficient framework, with no need for sparse-to-dense conversion or NMS post-processing. Our method achieves a better speed-accuracy trade-off than other mainframe detectors on the nuScenes dataset. For the first time, we show that a fully sparse voxel-based representation works decently for LIDAR 3D object detection and tracking. Extensive experiments on nuScenes, Waymo, and Argoverse2 benchmarks validate the effectiveness of our approach. Without bells and whistles, our model outperforms all existing LIDAR methods on the nuScenes tracking test benchmark.
arxiv情報
著者 | Yukang Chen,Jianhui Liu,Xiangyu Zhang,Xiaojuan Qi,Jiaya Jia |
発行日 | 2023-03-20 17:40:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google