Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

要約

自動運転認識システムでは、3D 検出と追跡が 2 つの基本的なタスクです。
このペーパーでは、Sparse4D フレームワークに基づいて、この分野をさらに深く掘り下げます。
2 つの補助トレーニング タスク (時間的インスタンスのノイズ除去と品質推定) を導入し、構造的な改善を行うための分離された注意を提案し、検出パフォーマンスの大幅な向上につながります。
さらに、推論中にインスタンス ID を割り当てる直接的なアプローチを使用して検出器をトラッカーに拡張し、クエリベースのアルゴリズムの利点をさらに強調します。
nuScenes ベンチマークで行われた広範な実験により、提案された改善の有効性が検証されています。
ResNet50 をバックボーンとして使用すると、mAP、NDS、および AMOTA で 3.0\%、2.2\%、および 7.6\% の強化が確認され、それぞれ 46.9\%、56.1\%、および 49.0\% を達成しました。
当社の最良のモデルは、nuScenes テスト セットで 71.9\% NDS と 67.7\% AMOTA を達成しました。
コードは \url{https://github.com/linxuewu/Sparse4D} でリリースされます。

要約(オリジナル)

In autonomous driving perception systems, 3D detection and tracking are the two fundamental tasks. This paper delves deeper into this field, building upon the Sparse4D framework. We introduce two auxiliary training tasks (Temporal Instance Denoising and Quality Estimation) and propose decoupled attention to make structural improvements, leading to significant enhancements in detection performance. Additionally, we extend the detector into a tracker using a straightforward approach that assigns instance ID during inference, further highlighting the advantages of query-based algorithms. Extensive experiments conducted on the nuScenes benchmark validate the effectiveness of the proposed improvements. With ResNet50 as the backbone, we witnessed enhancements of 3.0\%, 2.2\%, and 7.6\% in mAP, NDS, and AMOTA, achieving 46.9\%, 56.1\%, and 49.0\%, respectively. Our best model achieved 71.9\% NDS and 67.7\% AMOTA on the nuScenes test set. Code will be released at \url{https://github.com/linxuewu/Sparse4D}.

arxiv情報

著者 Xuewu Lin,Zixiang Pei,Tianwei Lin,Lichao Huang,Zhizhong Su
発行日 2023-11-20 12:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク