要約
単眼3次元物体検出(M3OD)のラベルは、入手にコストがかかる。一方、実用的なアプリケーションでは、通常、多数のラベル無しデータが存在し、事前学習はラベル無しデータに含まれる知識を利用する効率的な方法である。しかし、M3ODのための事前学習パラダイムはほとんど研究されていない。本研究では、このギャップを埋めることを目的とする。(1)事前学習タスクは、対象タスクの表現を模倣して作成することが重要である。(2)奥行き推定と2次元物体検出の組み合わせは、M3ODの事前学習ベースラインとして有望である。その後、このガイドラインに従って、このベースラインをさらに改善するために、主にターゲットガイド付き半密度の深度推定、キーポイントを考慮した2次元物体検出、クラスレベルの損失調整などの戦略を提案する。これらの技術を組み合わせることで、KITTI-3DとnuScenesの両ベンチマークにおいてM3ODの性能を大幅に向上させる事前学習フレームワークを実現することができる。例えば、DLA34バックボーンをナイーブセンターベースM3OD検出器に適用することで、KITTI-3DテストセットのCarの中程度の${rm AP}_{3D}70$ スコアは18.71%向上し、nuScenes検証セットのNDSスコアは40.41%相対的に改善される。
要約(オリジナル)
The labels of monocular 3D object detection (M3OD) are expensive to obtain. Meanwhile, there usually exists numerous unlabeled data in practical applications, and pre-training is an efficient way of exploiting the knowledge in unlabeled data. However, the pre-training paradigm for M3OD is hardly studied. We aim to bridge this gap in this work. To this end, we first draw two observations: (1) The guideline of devising pre-training tasks is imitating the representation of the target task. (2) Combining depth estimation and 2D object detection is a promising M3OD pre-training baseline. Afterwards, following the guideline, we propose several strategies to further improve this baseline, which mainly include target guided semi-dense depth estimation, keypoint-aware 2D object detection, and class-level loss adjustment. Combining all the developed techniques, the obtained pre-training framework produces pre-trained backbones that improve M3OD performance significantly on both the KITTI-3D and nuScenes benchmarks. For example, by applying a DLA34 backbone to a naive center-based M3OD detector, the moderate ${\rm AP}_{3D}70$ score of Car on the KITTI-3D testing set is boosted by 18.71\% and the NDS score on the nuScenes validation set is improved by 40.41\% relatively.
arxiv情報
著者 | Zhuoling Li,Chuanrui Zhang,En Yu,Haoqian Wang |
発行日 | 2022-06-08 03:01:13+00:00 |
arxivサイト | arxiv_id(pdf) |