VADet: Multi-frame LiDAR 3D Object Detection using Variable Aggregation

要約

入力集約は、最先端の LiDAR 3D 物体検出器が検出を向上させるために使用する単純な手法です。
ただし、集約を増やすと、集約されたフレームの数に対するオブジェクトの応答が異なるため、収益が減少し、さらにはパフォーマンスが低下することが知られています。
この制限に対処するために、Variable Aggregation Detection (VADet) と呼ばれる効率的な適応方法を提案します。
VADet は、固定数のフレームを使用してシーン全体を集約するのではなく、速度やポイント密度などのオブジェクトの観察されたプロパティによって決定されるフレーム数を使用して、オブジェクトごとに集約を実行します。
したがって、VADet は固定集約に固有のトレードオフを軽減し、アーキテクチャー固有ではありません。
その利点を実証するために、VADet を 3 つの一般的なシングルステージ検出器に適用し、Waymo データセットで最先端のパフォーマンスを実現しました。

要約(オリジナル)

Input aggregation is a simple technique used by state-of-the-art LiDAR 3D object detectors to improve detection. However, increasing aggregation is known to have diminishing returns and even performance degradation, due to objects responding differently to the number of aggregated frames. To address this limitation, we propose an efficient adaptive method, which we call Variable Aggregation Detection (VADet). Instead of aggregating the entire scene using a fixed number of frames, VADet performs aggregation per object, with the number of frames determined by an object’s observed properties, such as speed and point density. VADet thus reduces the inherent trade-offs of fixed aggregation and is not architecture specific. To demonstrate its benefits, we apply VADet to three popular single-stage detectors and achieve state-of-the-art performance on the Waymo dataset.

arxiv情報

著者 Chengjie Huang,Vahdat Abdelzad,Sean Sedwards,Krzysztof Czarnecki
発行日 2024-11-20 10:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク