SUIT: Learning Significance-guided Information for 3D Temporal Detection

要約

LiDAR 点群からの 3D 物体検出は、自動運転とロボット工学にとって非常に重要です。
連続点群には時間情報を通じて 3D 知覚を向上させる可能性がありますが、これらの時間特徴を効果的かつ効率的に利用することは依然として困難な問題です。
LiDAR シーンでは前景情報がまばらに分散しているという観察に基づいて、密なマップではなく疎な形式によって十分な知識が提供できると考えられます。
この目的を達成するために、フレーム間の情報融合のために時間情報をまばらな特徴として単純化する、3D 時間検出のための重要度誘導情報 (SUIT) を学習することを提案します。
具体的には、まず、予測されたオブジェクトの重心に基づいて情報が豊富だがまばらな特徴を抽出する重要なサンプリング メカニズムを導入します。
その上で、フレーム全体の疎な特徴間のオブジェクト中心の変換を学習する、明示的な幾何学的変換学習手法を紹介します。
私たちは、大規模な nuScenes と Waymo データセットでメソッドを評価しました。この SUIT は、時間融合のメモリと計算コストを大幅に削減するだけでなく、最先端のベースラインを上回るパフォーマンスを発揮します。

要約(オリジナル)

3D object detection from LiDAR point cloud is of critical importance for autonomous driving and robotics. While sequential point cloud has the potential to enhance 3D perception through temporal information, utilizing these temporal features effectively and efficiently remains a challenging problem. Based on the observation that the foreground information is sparsely distributed in LiDAR scenes, we believe sufficient knowledge can be provided by sparse format rather than dense maps. To this end, we propose to learn Significance-gUided Information for 3D Temporal detection (SUIT), which simplifies temporal information as sparse features for information fusion across frames. Specifically, we first introduce a significant sampling mechanism that extracts information-rich yet sparse features based on predicted object centroids. On top of that, we present an explicit geometric transformation learning technique, which learns the object-centric transformations among sparse features across frames. We evaluate our method on large-scale nuScenes and Waymo dataset, where our SUIT not only significantly reduces the memory and computation cost of temporal fusion, but also performs well over the state-of-the-art baselines.

arxiv情報

著者 Zheyuan Zhou,Jiachen Lu,Yihan Zeng,Hang Xu,Li Zhang
発行日 2023-07-04 16:22:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク