MGTANet: Encoding Sequential LiDAR Points Using Long Short-Term Motion-Guided Temporal Attention for 3D Object Detection

要約

ほとんどのスキャニング LiDAR センサーは、一連の点群をリアルタイムで生成します。
従来の 3D オブジェクト検出器は、一定の時間間隔で取得された一連の順序付けられていない LiDAR ポイントを使用しますが、最近の研究では、一連の LiDAR ポイント セットに存在する時空間コンテキストを活用することで、大幅なパフォーマンスの向上を達成できることが明らかになりました。
この論文では、複数の連続スキャンによって取得されたLiDAR点群シーケンスをエンコードできる、新しい3Dオブジェクト検出アーキテクチャを提案します。
点群シーケンスのエンコード プロセスは、2 つの異なる時間スケールで実行されます。
最初に、各ボクセル内のオブジェクトの動きによって引き起こされる点群の短期的な時間的変化をキャプチャする短期的なモーション認識ボクセル エンコーディングを設計します。
また、フィーチャ マップのシーケンスから推測される動的モーション コンテキストを利用して、短期ボクセル エンコーディングによって取得された BEV フィーチャ マップを適応的に整列および集約する、長期モーション ガイド付き鳥瞰図 (BEV) フィーチャ エンハンスメントも提案します。
パブリック nuScenes ベンチマークで実施された実験は、提案された 3D オブジェクト検出器がベースライン メソッドと比較してパフォーマンスを大幅に改善し、特定の 3D オブジェクト検出カテゴリで最先端のパフォーマンスを設定することを示しています。
コードは https://github.com/HYjhkoh/MGTANet.git で入手できます。

要約(オリジナル)

Most scanning LiDAR sensors generate a sequence of point clouds in real-time. While conventional 3D object detectors use a set of unordered LiDAR points acquired over a fixed time interval, recent studies have revealed that substantial performance improvement can be achieved by exploiting the spatio-temporal context present in a sequence of LiDAR point sets. In this paper, we propose a novel 3D object detection architecture, which can encode LiDAR point cloud sequences acquired by multiple successive scans. The encoding process of the point cloud sequence is performed on two different time scales. We first design a short-term motion-aware voxel encoding that captures the short-term temporal changes of point clouds driven by the motion of objects in each voxel. We also propose long-term motion-guided bird’s eye view (BEV) feature enhancement that adaptively aligns and aggregates the BEV feature maps obtained by the short-term voxel encoding by utilizing the dynamic motion context inferred from the sequence of the feature maps. The experiments conducted on the public nuScenes benchmark demonstrate that the proposed 3D object detector offers significant improvements in performance compared to the baseline methods and that it sets a state-of-the-art performance for certain 3D object detection categories. Code is available at https://github.com/HYjhkoh/MGTANet.git

arxiv情報

著者 Junho Koh,Junhyung Lee,Youngwoo Lee,Jaekyum Kim,Jun Won Choi
発行日 2022-12-21 07:22:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク