LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection

要約

時間的LiDAR点群を使用した3D物体検出のための後期から初期の反復特徴融合スキームを提案します。
私たちの主な動機は、オブジェクト認識の潜在的な埋め込みを 3D オブジェクト検出器の初期段階に融合することです。
この特徴融合戦略により、モデルは生の点から直接学習する場合と比較して、困難なオブジェクトの形状と姿勢をより適切にキャプチャできるようになります。
私たちの手法は、後期から初期の特徴融合を再帰的に実行します。
これは、時間的に調整され、整列されたスパース ピラー トークンに対してウィンドウ ベースのアテンション ブロックを強制することによって実現されます。
鳥瞰図の前景柱セグメンテーションを活用して、モデルが現在のフレームに融合する必要があるまばらな履歴特徴の数を 10$\times$ 削減します。
また、推論時にモデルを可変フレーム長に一般化し、再トレーニングなしでパフォーマンスを向上させる、確率的長さの FrameDrop トレーニング手法も提案します。
私たちは広く採用されている Waymo Open Dataset で私たちの方法を評価し、特に大きなオブジェクトという難しいカテゴリーにおいて、ベースライン モデルに対する 3D オブジェクト検出の改善を実証します。

要約(オリジナル)

We propose a late-to-early recurrent feature fusion scheme for 3D object detection using temporal LiDAR point clouds. Our main motivation is fusing object-aware latent embeddings into the early stages of a 3D object detector. This feature fusion strategy enables the model to better capture the shapes and poses for challenging objects, compared with learning from raw points directly. Our method conducts late-to-early feature fusion in a recurrent manner. This is achieved by enforcing window-based attention blocks upon temporally calibrated and aligned sparse pillar tokens. Leveraging bird’s eye view foreground pillar segmentation, we reduce the number of sparse history features that our model needs to fuse into its current frame by 10$\times$. We also propose a stochastic-length FrameDrop training technique, which generalizes the model to variable frame lengths at inference for improved performance without retraining. We evaluate our method on the widely adopted Waymo Open Dataset and demonstrate improvement on 3D object detection against the baseline model, especially for the challenging category of large objects.

arxiv情報

著者 Tong He,Pei Sun,Zhaoqi Leng,Chenxi Liu,Dragomir Anguelov,Mingxing Tan
発行日 2023-09-28 21:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク