PillarNeSt: Embracing Backbone Scaling and Pretraining for Pillar-based 3D Object Detection

要約

この論文では、ピラーベースの 3D オブジェクト検出器の 2D バックボーン スケーリングと事前トレーニングの有効性を示します。
ピラーベースの手法は主に、特徴抽出にランダムに初期化された 2D 畳み込みニューラル ネットワーク (ConvNet) を使用しており、画像ドメインでのバックボーン スケーリングと事前トレーニングの利点を享受できません。
点群のスケールアップ能力を示すために、ピラーベースの検出器の 2D バックボーンとして大規模な画像データセット (ImageNet など) で事前学習された高密度 ConvNet を導入します。
ConvNet は、点群の固有の特徴 (疎性や不規則性など) に応じたモデル サイズに基づいて適応的に設計されます。
事前トレーニング済み ConvNet を備えた、PillarNeSt と呼ばれる私たちが提案するピラーベースの検出器は、nuScenes および Argoversev2 データセット上で既存の 3D オブジェクト検出器を大幅に上回ります。
私たちのコードは承認され次第公開されます。

要約(オリジナル)

This paper shows the effectiveness of 2D backbone scaling and pretraining for pillar-based 3D object detectors. Pillar-based methods mainly employ randomly initialized 2D convolution neural network (ConvNet) for feature extraction and fail to enjoy the benefits from the backbone scaling and pretraining in the image domain. To show the scaling-up capacity in point clouds, we introduce the dense ConvNet pretrained on large-scale image datasets (e.g., ImageNet) as the 2D backbone of pillar-based detectors. The ConvNets are adaptively designed based on the model size according to the specific features of point clouds, such as sparsity and irregularity. Equipped with the pretrained ConvNets, our proposed pillar-based detector, termed PillarNeSt, outperforms the existing 3D object detectors by a large margin on the nuScenes and Argoversev2 datasets. Our code shall be released upon acceptance.

arxiv情報

著者 Weixin Mao,Tiancai Wang,Diankun Zhang,Junjie Yan,Osamu Yoshie
発行日 2023-11-29 16:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク