要約
大規模データセットのキュレーションは、依然としてコストがかかり、多くの時間とリソースを必要とする。データは手作業でラベル付けされることが多く、高品質なデータセットを作成するという課題が残っている。本研究では、マルチモーダル3D物体検出のための能動学習を用いた研究ギャップを埋める。我々はActiveAnno3Dという能動学習フレームワークを提案する。我々は、様々な連続学習法を検討し、計算負荷と検出性能に関して最も効率的な方法を統合する。さらに、nuScenesとTUM Traffic Intersectionデータセットを用いて、BEVFusionとPV-RCNNによる広範な実験とアブレーション研究を行う。その結果、TUM Traffic Intersectionデータセットの半分の学習データ(83.50mAPに対して77.25mAP)しか使用しない場合、PV-RCNNとエントロピーベースのクエリー戦略でほぼ同じ性能を達成できることが示された。BEVFusionは、訓練データの半分を使用した場合64.31のmAPを達成し、完全なnuScenesデータセットを使用した場合75.0mAPを達成した。我々の能動学習フレームワークをproAnnoラベリングツールに統合し、AIによるデータ選択とラベリングを可能にし、ラベリングコストを最小化する。最後に、コード、重み、可視化結果をウェブサイトhttps://active3d-framework.github.io/active3d-framework。
要約(オリジナル)
The curation of large-scale datasets is still costly and requires much time and resources. Data is often manually labeled, and the challenge of creating high-quality datasets remains. In this work, we fill the research gap using active learning for multi-modal 3D object detection. We propose ActiveAnno3D, an active learning framework to select data samples for labeling that are of maximum informativeness for training. We explore various continuous training methods and integrate the most efficient method regarding computational demand and detection performance. Furthermore, we perform extensive experiments and ablation studies with BEVFusion and PV-RCNN on the nuScenes and TUM Traffic Intersection dataset. We show that we can achieve almost the same performance with PV-RCNN and the entropy-based query strategy when using only half of the training data (77.25 mAP compared to 83.50 mAP) of the TUM Traffic Intersection dataset. BEVFusion achieved an mAP of 64.31 when using half of the training data and 75.0 mAP when using the complete nuScenes dataset. We integrate our active learning framework into the proAnno labeling tool to enable AI-assisted data selection and labeling and minimize the labeling costs. Finally, we provide code, weights, and visualization results on our website: https://active3d-framework.github.io/active3d-framework.
arxiv情報
著者 | Ahmed Ghita,Bjørk Antoniussen,Walter Zimmer,Ross Greer,Christian Creß,Andreas Møgelmose,Mohan M. Trivedi,Alois C. Knoll |
発行日 | 2024-02-05 17:52:58+00:00 |
arxivサイト | arxiv_id(pdf) |