要約
3D バウンディング ボックスのグラウンド トゥルース アノテーションに固有のあいまいさは、オクルージョン、信号の欠落、または手動のアノテーション エラーによって引き起こされ、トレーニング中にディープ 3D オブジェクト検出器を混乱させ、検出精度を低下させる可能性があります。
ただし、既存の方法では、このような問題をある程度見落としており、ラベルを決定論的なものとして扱っています。
この論文では、オブジェクトの潜在的にもっともらしいバウンディングボックスの多様性としてラベル不確実性問題を定式化し、典型的な3Dオブジェクトとその
潜在変数を持つ潜在的なグラウンド トゥルース バウンディング ボックス。
GLENet によって生成されたラベルの不確実性はプラグアンドプレイ モジュールであり、既存のディープ 3D 検出器に便利に統合して、確率的検出器を構築し、ローカリゼーションの不確実性の学習を監視できます。
さらに、予測されたローカリゼーションの不確実性を使用して IoU ブランチのトレーニングをガイドするために、確率的検出器の不確実性を認識する品質推定器アーキテクチャを提案します。
提案された方法をさまざまな一般的なベース 3D 検出器に組み込み、KITTI と Waymo の両方のベンチマーク データセットで大幅かつ一貫したパフォーマンスの向上を実証します。
特に、提案された GLENet-VR は、公開されているすべての LiDAR ベースのアプローチよりも大幅に優れており、挑戦的な KITTI テスト セットのシングル モーダル メソッドの中で $1^{st}$ にランクされています。
コードは https://github.com/Eaphan/GLENet で入手できます。
要約(オリジナル)
The inherent ambiguity in ground-truth annotations of 3D bounding boxes caused by occlusions, signal missing, or manual annotation errors can confuse deep 3D object detectors during training, thus deteriorating the detection accuracy. However, existing methods overlook such issues to some extent and treat the labels as deterministic. In this paper, we formulate the label uncertainty problem as the diversity of potentially plausible bounding boxes of objects, then propose GLENet, a generative framework adapted from conditional variational autoencoders, to model the one-to-many relationship between a typical 3D object and its potential ground-truth bounding boxes with latent variables. The label uncertainty generated by GLENet is a plug-and-play module and can be conveniently integrated into existing deep 3D detectors to build probabilistic detectors and supervise the learning of the localization uncertainty. Besides, we propose an uncertainty-aware quality estimator architecture in probabilistic detectors to guide the training of IoU-branch with predicted localization uncertainty. We incorporate the proposed methods into various popular base 3D detectors and demonstrate significant and consistent performance gains on both KITTI and Waymo benchmark datasets. Especially, the proposed GLENet-VR outperforms all published LiDAR-based approaches by a large margin and ranks $1^{st}$ among single-modal methods on the challenging KITTI test set. The code is available at https://github.com/Eaphan/GLENet.
arxiv情報
著者 | Yifan Zhang,Qijian Zhang,Zhiyu Zhu,Junhui Hou,Yixuan Yuan |
発行日 | 2023-01-26 02:55:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google