MonoSIM: Simulating Learning Behaviors of Heterogeneous Point Cloud Object Detectors for Monocular 3D Object Detection


単眼3D物体検出は、自律走行、ロボット把持、拡張現実感など多くのアプリケーションにとって基本的かつ非常に重要なタスクである。既存の主要な方法は、まず入力画像の深度を推定し、点群に基づいて3Dオブジェクトを検出する傾向がある。この方法では、深度推定と物体検出の間に本質的なギャップがある。さらに、予測誤差の蓄積も性能に影響を与える。本論文では、MonoSIMと呼ばれる新しい手法を提案する。MonoSIMを導入する背景には、学習期間中に点群ベースの検出器の特徴学習動作を単眼検出器のためにシミュレートすることを提案することがある。これにより、推論期間において、学習された特徴量と予測値が点群ベースの検出器と可能な限り類似するようになる。そのために、シーンレベルシミュレーションモジュール、RoIレベルシミュレーションモジュール、応答レベルシミュレーションモジュールを提案し、それぞれを特徴学習・予測パイプラインに順次利用することで、特徴学習・予測を実現する。我々は、有名なM3D-RPN検出器とCaDDN検出器に我々の方法を適用し、KITTIとWaymo Openデータセットで広範囲な実験を実施した。その結果、我々の手法は、異なる単眼検出器のネットワークアーキテクチャを変更することなく、一貫して大きなマージンで性能を向上させることが示されました。我々のコードは、}{ で一般に公開される予定です。


Monocular 3D object detection is a fundamental but very important task to many applications including autonomous driving, robotic grasping and augmented reality. Existing leading methods tend to estimate the depth of the input image first, and detect the 3D object based on point cloud. This routine suffers from the inherent gap between depth estimation and object detection. Besides, the prediction error accumulation would also affect the performance. In this paper, a novel method named MonoSIM is proposed. The insight behind introducing MonoSIM is that we propose to simulate the feature learning behaviors of a point cloud based detector for monocular detector during the training period. Hence, during inference period, the learned features and prediction would be similar to the point cloud based detector as possible. To achieve it, we propose one scene-level simulation module, one RoI-level simulation module and one response-level simulation module, which are progressively used for the detector’s full feature learning and prediction pipeline. We apply our method to the famous M3D-RPN detector and CaDDN detector, conducting extensive experiments on KITTI and Waymo Open datasets. Results show that our method consistently improves the performance of different monocular detectors for a large margin without changing their network architectures. Our codes will be publicly available at}{


著者 Han Sun,Zhaoxin Fan,Zhenbo Song,Zhicheng Wang,Kejian Wu,Jianfeng Lu
発行日 2022-12-05 16:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク