Fully Sparse 3D Object Detection

要約

LiDARの知覚範囲が拡大するにつれて、LiDARベースの3Dオブジェクト検出は、自動運転の長距離知覚タスクにおける主要なタスクになります。
主流の3Dオブジェクト検出器は通常、ネットワークバックボーンと予測ヘッドに高密度の特徴マップを構築します。
ただし、密なフィーチャマップの計算コストと空間コストは、知覚範囲の2次式であるため、長距離設定にスケールアップすることはほとんどありません。
効率的な長距離LiDARベースのオブジェクト検出を可能にするために、完全にスパースな3Dオブジェクト検出器(FSD)を構築します。
FSDの計算および空間コストは、ポイントの数に対してほぼ線形であり、知覚範囲とは無関係です。
FSDは、一般的なスパースボクセルエンコーダーと新しいスパースインスタンス認識(SIR)モジュールに基づいて構築されています。
SIRは最初にポイントをインスタンスにグループ化し、次にインスタンスごとの特徴抽出と予測を適用します。
このようにして、SIRは、すべての中心ベースまたはアンカーベースの検出器の完全にスパースなアーキテクチャの設計を妨げる中心機能の欠落の問題を解決します。
さらに、SIRは、ポイントをインスタンスにグループ化することにより、以前のポイントベースの方法で時間のかかるネイバークエリを回避します。
大規模なWaymoOpenDatasetで広範な実験を行い、FSDの動作メカニズムを明らかにし、最先端のパフォーマンスを報告します。
長距離検出におけるFSDの優位性を実証するために、Waymo Openデータセット($ 75m $)よりもはるかに広い知覚範囲($ 200m $)を持つArgoverse2データセットでも実験を行います。
このような広い知覚範囲で、FSDは最先端のパフォーマンスを実現し、高密度の対応物よりも2.4 $ \times$高速です。コードはhttps://github.com/TuSimple/SSTでリリースされます。

要約(オリジナル)

As the perception range of LiDAR increases, LiDAR-based 3D object detection becomes a dominant task in the long-range perception task of autonomous driving. The mainstream 3D object detectors usually build dense feature maps in the network backbone and prediction head. However, the computational and spatial costs on the dense feature map are quadratic to the perception range, which makes them hardly scale up to the long-range setting. To enable efficient long-range LiDAR-based object detection, we build a fully sparse 3D object detector (FSD). The computational and spatial cost of FSD is roughly linear to the number of points and independent of the perception range. FSD is built upon the general sparse voxel encoder and a novel sparse instance recognition (SIR) module. SIR first groups the points into instances and then applies instance-wise feature extraction and prediction. In this way, SIR resolves the issue of center feature missing, which hinders the design of the fully sparse architecture for all center-based or anchor-based detectors. Moreover, SIR avoids the time-consuming neighbor queries in previous point-based methods by grouping points into instances. We conduct extensive experiments on the large-scale Waymo Open Dataset to reveal the working mechanism of FSD, and state-of-the-art performance is reported. To demonstrate the superiority of FSD in long-range detection, we also conduct experiments on Argoverse 2 Dataset, which has a much larger perception range ($200m$) than Waymo Open Dataset ($75m$). On such a large perception range, FSD achieves state-of-the-art performance and is 2.4$\times$ faster than the dense counterpart.Codes will be released at https://github.com/TuSimple/SST.

arxiv情報

著者 Lue Fan,Feng Wang,Naiyan Wang,Zhaoxiang Zhang
発行日 2022-07-20 17:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク