要約
以前の複数のフレームで LiDAR 入力を拡張すると、より豊富なセマンティック情報が提供されるため、3D オブジェクト検出のパフォーマンスが向上します。ただし、マルチフレーム内の点群が密集していると、モーション ブラーや不正確な点投影により、正確な位置情報が損なわれる可能性があります。
この研究では、新しい機能融合戦略である DynStaF (Dynamic-Static Fusion) を提案します。これは、マルチフレーム (動的ブランチ) によって提供される豊富なセマンティック情報を、現在の単一フレーム (静的ブランチ) からの正確な位置情報で強化します。
)。
補完的な機能を効果的に抽出および集約するために、DynStaF には、デュアル パスウェイ アーキテクチャを通じて動作する、Neighborhood Cross Attendant (NCA) と Dynamic-Static Interaction (DSI) という 2 つのモジュールが含まれています。
NCA は、静的ブランチの特徴をクエリとして受け取り、動的ブランチの特徴をキー (値) として受け取ります。
アテンションを計算するとき、点群のまばらさに対処し、近傍の位置のみを考慮します。
NCA は、異なる機能マップ スケールで 2 つの機能を融合し、その後 DSI が包括的な相互作用を提供します。
私たちが提案した戦略 DynStaF を分析するために、nuScenes データセットで広範な実験を実施しました。
テスト セットでは、DynStaF は NDS の PointPillars のパフォーマンスを 57.7% から 61.6% に大幅に向上させました。
CenterPoint と組み合わせると、当社のフレームワークは 61.0% の mAP と 67.7% の NDS を達成し、付加機能なしで最先端のパフォーマンスを実現します。
要約(オリジナル)
Augmenting LiDAR input with multiple previous frames provides richer semantic information and thus boosts performance in 3D object detection, However, crowded point clouds in multi-frames can hurt the precise position information due to the motion blur and inaccurate point projection. In this work, we propose a novel feature fusion strategy, DynStaF (Dynamic-Static Fusion), which enhances the rich semantic information provided by the multi-frame (dynamic branch) with the accurate location information from the current single-frame (static branch). To effectively extract and aggregate complimentary features, DynStaF contains two modules, Neighborhood Cross Attention (NCA) and Dynamic-Static Interaction (DSI), operating through a dual pathway architecture. NCA takes the features in the static branch as queries and the features in the dynamic branch as keys (values). When computing the attention, we address the sparsity of point clouds and take only neighborhood positions into consideration. NCA fuses two features at different feature map scales, followed by DSI providing the comprehensive interaction. To analyze our proposed strategy DynStaF, we conduct extensive experiments on the nuScenes dataset. On the test set, DynStaF increases the performance of PointPillars in NDS by a large margin from 57.7% to 61.6%. When combined with CenterPoint, our framework achieves 61.0% mAP and 67.7% NDS, leading to state-of-the-art performance without bells and whistles.
arxiv情報
著者 | Yao Rong,Xiangyu Wei,Tianwei Lin,Yueyu Wang,Enkelejda Kasneci |
発行日 | 2023-05-24 15:00:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google