要約
深層学習ベースの 3D オブジェクト検出の進歩により、大規模なデータセットの利用が必要になります。
ただし、この要件により、手動で注釈を付けるという課題が生じ、多くの場合、面倒で時間がかかります。
この問題に取り組むために、文献では、ラベルのないデータに対して疑似ラベルを自動的に生成できる、3D オブジェクト検出用のいくつかの弱く監視されたフレームワークの出現が確認されています。
それにもかかわらず、これらの生成された擬似ラベルにはノイズが含まれており、人間がラベルを付けたものほど正確ではありません。
この論文では、証拠深層学習 (EDL) ベースの不確実性推定フレームワークを導入することで、擬似ラベルに存在する固有のあいまいさに対処する最初のアプローチを紹介します。
具体的には、擬似ラベルを生成するだけでなく、関連する不確実性を定量化する、MTrans に基づく EDL フレームワークである MEDL-U を提案します。
ただし、EDL を 3D オブジェクト検出に適用すると、次の 3 つの主要な課題が生じます。(1) 他の自動ラベラーと比較して疑似ラベルの品質が比較的低い。
(2) 証拠の不確実性の推定値が過度に高い。
(3) 下流のタスクに対する明確な解釈可能性と不確実性の効果的な利用が欠如している。
私たちは、不確実性を認識した IoU ベースの損失、証拠を認識したマルチタスク損失関数の導入、および不確実性を改善するための後処理段階の実装を通じて、これらの問題に取り組みます。
私たちの実験結果は、MEDL-U の出力を使用してトレーニングされた確率的検出器が、すべての難易度の KITTI val セットで以前の 3D アノテーターからの出力を使用してトレーニングされた決定的検出器を上回ることを示しています。
さらに、MEDL-U は、既存の 3D 自動アノテーターと比較して、KITTI 公式テスト セットで最先端の結果を達成しています。
要約(オリジナル)
Advancements in deep learning-based 3D object detection necessitate the availability of large-scale datasets. However, this requirement introduces the challenge of manual annotation, which is often both burdensome and time-consuming. To tackle this issue, the literature has seen the emergence of several weakly supervised frameworks for 3D object detection which can automatically generate pseudo labels for unlabeled data. Nevertheless, these generated pseudo labels contain noise and are not as accurate as those labeled by humans. In this paper, we present the first approach that addresses the inherent ambiguities present in pseudo labels by introducing an Evidential Deep Learning (EDL) based uncertainty estimation framework. Specifically, we propose MEDL-U, an EDL framework based on MTrans, which not only generates pseudo labels but also quantifies the associated uncertainties. However, applying EDL to 3D object detection presents three primary challenges: (1) relatively lower pseudolabel quality in comparison to other autolabelers; (2) excessively high evidential uncertainty estimates; and (3) lack of clear interpretability and effective utilization of uncertainties for downstream tasks. We tackle these issues through the introduction of an uncertainty-aware IoU-based loss, an evidence-aware multi-task loss function, and the implementation of a post-processing stage for uncertainty refinement. Our experimental results demonstrate that probabilistic detectors trained using the outputs of MEDL-U surpass deterministic detectors trained using outputs from previous 3D annotators on the KITTI val set for all difficulty levels. Moreover, MEDL-U achieves state-of-the-art results on the KITTI official test set compared to existing 3D automatic annotators.
arxiv情報
著者 | Helbert Paat,Qing Lian,Weilong Yao,Tong Zhang |
発行日 | 2024-02-15 14:48:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google