要約
ディープラーニングに基づく3D物体検出の進歩には、大規模なデータセットの利用が必要である。しかし、この要件は、しばしば負担と時間の両方である手動アノテーションの課題を導入する。この問題に取り組むため、文献では、ラベル付けされていないデータに対して擬似ラベルを自動的に生成できる、3Dオブジェクト検出のための弱教師付きフレームワークがいくつか登場している。しかしながら、これらの擬似ラベルはノイズを含んでおり、人間がラベル付けしたラベルほど正確ではない。本稿では、EDL(Evidential Deep Learning)ベースの不確実性推定フレームワークを導入することで、擬似ラベルに内在する曖昧性に対処する初のアプローチを提示する。具体的には、擬似ラベルを生成するだけでなく、関連する不確実性も定量化する、MTransに基づくEDLフレームワークであるMEDL-Uを提案する。しかし、EDLを3次元物体検出に適用する場合、3つの主要な課題がある。(1)他のオートラベル生成器と比較して、擬似ラベルの品質が相対的に低いこと、(2)証拠となる不確かさの推定値が過度に高いこと、(3)下流のタスクに対する不確かさの明確な解釈可能性と有効活用の欠如。我々は、不確実性を考慮したIoUベースの損失、証拠を考慮したマルチタスク損失関数の導入、および不確実性洗練のための後処理段階の実装により、これらの問題に取り組む。我々の実験結果は、MEDL-Uの出力を用いて訓練された確率的検出器が、全ての難易度において、KITTI値集合の過去の3Dアノテータの出力を用いて訓練された決定論的検出器を上回ることを示している。さらに、MEDL-UはKITTI公式テストセットにおいて、既存の3D自動アノテーターと比較して最先端の結果を達成している。
要約(オリジナル)
Advancements in deep learning-based 3D object detection necessitate the availability of large-scale datasets. However, this requirement introduces the challenge of manual annotation, which is often both burdensome and time-consuming. To tackle this issue, the literature has seen the emergence of several weakly supervised frameworks for 3D object detection which can automatically generate pseudo labels for unlabeled data. Nevertheless, these generated pseudo labels contain noise and are not as accurate as those labeled by humans. In this paper, we present the first approach that addresses the inherent ambiguities present in pseudo labels by introducing an Evidential Deep Learning (EDL) based uncertainty estimation framework. Specifically, we propose MEDL-U, an EDL framework based on MTrans, which not only generates pseudo labels but also quantifies the associated uncertainties. However, applying EDL to 3D object detection presents three primary challenges: (1) relatively lower pseudolabel quality in comparison to other autolabelers; (2) excessively high evidential uncertainty estimates; and (3) lack of clear interpretability and effective utilization of uncertainties for downstream tasks. We tackle these issues through the introduction of an uncertainty-aware IoU-based loss, an evidence-aware multi-task loss function, and the implementation of a post-processing stage for uncertainty refinement. Our experimental results demonstrate that probabilistic detectors trained using the outputs of MEDL-U surpass deterministic detectors trained using outputs from previous 3D annotators on the KITTI val set for all difficulty levels. Moreover, MEDL-U achieves state-of-the-art results on the KITTI official test set compared to existing 3D automatic annotators.
arxiv情報
著者 | Helbert Paat,Qing Lian,Weilong Yao,Tong Zhang |
発行日 | 2023-11-03 08:34:14+00:00 |
arxivサイト | arxiv_id(pdf) |