VPFusion: Towards Robust Vertical Representation Learning for 3D Object Detection

要約

タイトル:VPFusion:3Dオブジェクト検出の堅牢な垂直表現学習のために

要約:
– Lidarベースの3Dオブジェクト検出の効率的なポイントクラウド表現は基本的な要素である。
– 最近のグリッドベースの検出器は、通常、ポイントクラウドをボクセルまたはピラーに分割し、バードの眼のビューでシングルストリームネットワークを構築する。
– しかし、これらのポイントクラウドエンコーディングパラダイムは、垂直方向のポイント表現を過小評価し、歩行者や自転車などの垂直感度の高いオブジェクトの場合、セマンティックや細かなグレードの情報の喪失を引き起こすことがある。
– この論文では、明示的な垂直マルチスケール表現学習フレームワーク、VPFusionを提案する。
– VPFusionは、両方のボクセルおよびピラーストリームから補完的な情報を組み合わせるためのSparse Fusion Layer(SFL)を導入する。
– VPFusionは、Sparse Fusion Layer(SFL)を構築し、多レベルでボクセルとピラーの両方から密な特徴マップを効果的に結合する Dense Fusion Neck(DFN)を提供する。
– Waymo Open DatasetおよびnuScenes Datasetでの広範な実験により、VPFusionはシングルストリームベースラインを大幅に上回り、リアルタイム推論速度で最高の性能を発揮することが示された。

要約(オリジナル)

Efficient point cloud representation is a fundamental element of Lidar-based 3D object detection. Recent grid-based detectors usually divide point clouds into voxels or pillars and construct single-stream networks in Bird’s Eye View. However, these point cloud encoding paradigms underestimate the point representation in the vertical direction, which cause the loss of semantic or fine-grained information, especially for vertical sensitive objects like pedestrian and cyclists. In this paper, we propose an explicit vertical multi-scale representation learning framework, VPFusion, to combine the complementary information from both voxel and pillar streams. Specifically, VPFusion first builds upon a sparse voxel-pillar-based backbone. The backbone divides point clouds into voxels and pillars, then encodes features with 3D and 2D sparse convolution simultaneously. Next, we introduce the Sparse Fusion Layer (SFL), which establishes a bidirectional pathway for sparse voxel and pillar features to enable the interaction between them. Additionally, we present the Dense Fusion Neck (DFN) to effectively combine the dense feature maps from voxel and pillar branches with multi-scale. Extensive experiments on the large-scale Waymo Open Dataset and nuScenes Dataset demonstrate that VPFusion surpasses the single-stream baselines by a large margin and achieves state-of-the-art performance with real-time inference speed.

arxiv情報

著者 Yuhao Huang,Sanping Zhou,Junjie Zhang,Jinpeng Dong,Nanning Zheng
発行日 2023-04-06 05:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク