要約
最初に点群をグリッド表現に変換し、次に畳み込みニューラル ネットワークを適用するアーキテクチャは、レーダーベースの物体検出で優れたパフォーマンスを実現します。
ただし、不規則な点群データから密なグリッド構造への転送は、点の離散化と集約により情報の損失を伴うことがよくあります。
この論文では、グリッド レンダリングの悪影響を軽減することを目的とした新しいアーキテクチャであるマルチスケール KPPillarsBEV を提案します。
具体的には、カーネル点畳み込みの記述力を活用して、グリッド レンダリング中のローカル点群コンテキストのエンコードを改善する、新しいグリッド レンダリング方法 KPBEV を提案します。
さらに、任意のグリッド レンダリング方法を使用してマルチスケール特徴マップを検出ネットワークの畳み込みバックボーンに組み込むための一般的なマルチスケール グリッド レンダリング定式化を提案します。
私たちは nuScenes データセットに対して広範な実験を実行し、検出パフォーマンスと計算の複雑さの観点からメソッドを評価します。
提案されたマルチスケール KPPillarsBEV アーキテクチャは、nuScenes 検証セット上の Car AP4.0 (一致しきい値 4 メートルの平均精度) において、ベースラインを 5.37% 上回り、以前の最先端技術を 2.88% 上回りました。
さらに、提案されたシングルスケール KPBEV グリッド レンダリングは、同じ推論速度を維持しながら、Car AP4.0 をベースラインより 2.90% 向上させます。
要約(オリジナル)
Architectures that first convert point clouds to a grid representation and then apply convolutional neural networks achieve good performance for radar-based object detection. However, the transfer from irregular point cloud data to a dense grid structure is often associated with a loss of information, due to the discretization and aggregation of points. In this paper, we propose a novel architecture, multi-scale KPPillarsBEV, that aims to mitigate the negative effects of grid rendering. Specifically, we propose a novel grid rendering method, KPBEV, which leverages the descriptive power of kernel point convolutions to improve the encoding of local point cloud contexts during grid rendering. In addition, we propose a general multi-scale grid rendering formulation to incorporate multi-scale feature maps into convolutional backbones of detection networks with arbitrary grid rendering methods. We perform extensive experiments on the nuScenes dataset and evaluate the methods in terms of detection performance and computational complexity. The proposed multi-scale KPPillarsBEV architecture outperforms the baseline by 5.37% and the previous state of the art by 2.88% in Car AP4.0 (average precision for a matching threshold of 4 meters) on the nuScenes validation set. Moreover, the proposed single-scale KPBEV grid rendering improves the Car AP4.0 by 2.90% over the baseline while maintaining the same inference speed.
arxiv情報
著者 | Daniel Köhler,Maurice Quach,Michael Ulrich,Frank Meinl,Bastian Bischoff,Holger Blume |
発行日 | 2023-05-25 08:26:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google