要約
3D オブジェクト検出は、自動運転車、ロボット工学、拡張現実などのさまざまなアプリケーションで重要な役割を果たします。
ただし、3D 検出器のトレーニングにはコストのかかる正確なアノテーションが必要であり、これがアノテーションを大規模なデータセットに拡張する際の障害となります。
この課題に対処するために、サイズ事前分布とともに、画像からの 2D 境界ボックス アノテーションのみに依存する、弱く監視された 3D アノテーターを提案します。
大きな問題の 1 つは、2D ボックスのみを使用して 3D 検出モデルを監視することは、異なる 3D ポーズとそれらの同一の 2D 投影の間のあいまいさのため信頼性が低いことです。
シンプルでありながら効果的で汎用的なソリューションを紹介します。つまり、構築によって注釈付きの 3D プロキシ オブジェクトを構築し、それらをトレーニング データセットに追加します。
私たちの方法では、新しいクラスに適応するために事前サイズのみが必要です。
2D 監視と 3D 検出をより適切に調整するために、私たちの方法は 2D 損失の新しい表現で深さの不変性を保証します。
最後に、より困難なインスタンスを検出するために、アノテーターは 3D 擬似ラベルを徐々に改善するオフライン擬似ラベル付けスキームに従います。
KITTI データセットに対する広範な実験により、私たちの手法が自動車カテゴリで以前の研究と同等以上のパフォーマンスを発揮するだけでなく、より困難なクラスでも完全に教師ありの手法に近いパフォーマンスを達成できることが実証されました。
さらに、より困難な nuScenes データセットで最初に実験することで、この方法の有効性と堅牢性を実証します。
さらに、人間によるアノテーションの代わりに、MS-COCO で事前にトレーニングされた 2D 検出器から弱いラベルが取得される設定を提案します。
要約(オリジナル)
3D object detection plays a crucial role in various applications such as autonomous vehicles, robotics and augmented reality. However, training 3D detectors requires a costly precise annotation, which is a hindrance to scaling annotation to large datasets. To address this challenge, we propose a weakly supervised 3D annotator that relies solely on 2D bounding box annotations from images, along with size priors. One major problem is that supervising a 3D detection model using only 2D boxes is not reliable due to ambiguities between different 3D poses and their identical 2D projection. We introduce a simple yet effective and generic solution: we build 3D proxy objects with annotations by construction and add them to the training dataset. Our method requires only size priors to adapt to new classes. To better align 2D supervision with 3D detection, our method ensures depth invariance with a novel expression of the 2D losses. Finally, to detect more challenging instances, our annotator follows an offline pseudo-labelling scheme which gradually improves its 3D pseudo-labels. Extensive experiments on the KITTI dataset demonstrate that our method not only performs on-par or above previous works on the Car category, but also achieves performance close to fully supervised methods on more challenging classes. We further demonstrate the effectiveness and robustness of our method by being the first to experiment on the more challenging nuScenes dataset. We additionally propose a setting where weak labels are obtained from a 2D detector pre-trained on MS-COCO instead of human annotations.
arxiv情報
著者 | Saad Lahlali,Nicolas Granger,Hervé Le Borgne,Quoc-Cuong Pham |
発行日 | 2024-07-24 11:58:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google