Harnessing Uncertainty-aware Bounding Boxes for Unsupervised 3D Object Detection


教師なし3D物体検出は、LiDARポイントのようなラベル付けされていない生データから関心のある物体を識別することを目的としています。最近のアプローチは通常、クラスタリングアルゴリズムから擬似3Dバウンディングボックス(3D bboxes)を採用してモデル学習を初期化し、擬似ラベルと学習済みモデルの両方を繰り返し更新します。しかし、擬似bboxは必然的にノイズを含み、そのような不正確なアノテーションは最終的なモデルに蓄積され、性能を低下させる。そこで、擬似bboxの悪影響を軽減する試みとして、不確実性を考慮した新しいフレームワークを導入する。特に、我々の手法は、不確実性推定と不確実性正則化の2つの主要な構成要素からなる。(1) 不確実性推定フェーズでは、一次検出器と並行して補助検出ブランチを追加する。一次検出器と補助検出器の間の予測格差は、位置、形状、向きを含むボックス座標レベルでの不確実性を推定するために活用される。(2)評価された不確実性に基づき、全ての3次元bbox座標を適応的に調整することにより、モデル学習を正則化する。不確実性の高い擬似bbox座標に対しては、相対的に低い損失重みを割り当てる。実験により、提案手法がノイズの多い擬似bboxesに対して頑健であることが検証され、既存の手法と比較して、nuScenesとLyftにおいて、AP$_{BEV}$で6.9%、AP$_{3D}$で2.5%、LyftにおいてAP$_{BEV}$で2.2%、AP$_{3D}$で1.0%の大幅な改善が得られた。


Unsupervised 3D object detection aims to identify objects of interest from unlabeled raw data, such as LiDAR points. Recent approaches usually adopt pseudo 3D bounding boxes (3D bboxes) from clustering algorithm to initialize the model training, and then iteratively updating both pseudo labels and the trained model. However, pseudo bboxes inevitably contain noises, and such inaccurate annotation accumulates to the final model, compromising the performance. Therefore, in an attempt to mitigate the negative impact of pseudo bboxes, we introduce a new uncertainty-aware framework. In particular, Our method consists of two primary components: uncertainty estimation and uncertainty regularization. (1) In the uncertainty estimation phase, we incorporate an extra auxiliary detection branch alongside the primary detector. The prediction disparity between the primary and auxiliary detectors is leveraged to estimate uncertainty at the box coordinate level, including position, shape, orientation. (2) Based on the assessed uncertainty, we regularize the model training via adaptively adjusting every 3D bboxes coordinates. For pseudo bbox coordinates with high uncertainty, we assign a relatively low loss weight. Experiment verifies that the proposed method is robust against the noisy pseudo bboxes, yielding substantial improvements on nuScenes and Lyft compared to existing techniques, with increases of 6.9% in AP$_{BEV}$ and 2.5% in AP$_{3D}$ on nuScenes, and 2.2% in AP$_{BEV}$ and 1.0% in AP$_{3D}$ on Lyft.


著者 Ruiyang Zhang,Hu Zhang,Hang Yu,Zhedong Zheng
発行日 2024-08-01 15:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク