Weakly Supervised 3D Object Detection with Multi-Stage Generalization

要約

大規模モデルの急速な開発に伴い、データの必要性がますます重要になっています。
特に 3D オブジェクト検出では、コストのかかる手動アノテーションがさらなる進歩の妨げとなっています。
アノテーションの負担を軽減するために、2D アノテーションのみに基づいて 3D オブジェクト検出を実現する問題を研究します。
高度な 3D 再構成技術のおかげで、静的な 3D シーン全体を再構成できるようになりました。
ただし、シーン全体から正確なオブジェクトレベルの注釈を抽出し、これらの限定された注釈をシーン全体に一般化することは依然として課題です。
この論文では、擬似ラベル生成と多段階汎化を含む、BA$^2$-Det と呼ばれる新しいパラダイムを紹介します。
DoubleClustering アルゴリズムを考案して、再構成されたシーン レベルの点からオブジェクト クラスターを取得し、完全から部分へ、静的から動的、近距離から遠距離への進行という 3 つの一般化段階を開発することでモデルの検出機能をさらに強化します。
大規模な Waymo Open Dataset で行われた実験では、BA$^2$-Det のパフォーマンスが 10% アノテーションを使用した完全教師あり手法と同等であることが示されています。
さらに、BA$^2$-Det は事前トレーニングに大規模な生ビデオを使用することで、KITTI データセットに対して 20% の相対的な改善を達成できます。
この方法には、複雑なシーン内のオープンセット 3D オブジェクトを検出するための大きな可能性もあります。
プロジェクトページ:https://ba2det.site。

要約(オリジナル)

With the rapid development of large models, the need for data has become increasingly crucial. Especially in 3D object detection, costly manual annotations have hindered further advancements. To reduce the burden of annotation, we study the problem of achieving 3D object detection solely based on 2D annotations. Thanks to advanced 3D reconstruction techniques, it is now feasible to reconstruct the overall static 3D scene. However, extracting precise object-level annotations from the entire scene and generalizing these limited annotations to the entire scene remain challenges. In this paper, we introduce a novel paradigm called BA$^2$-Det, encompassing pseudo label generation and multi-stage generalization. We devise the DoubleClustering algorithm to obtain object clusters from reconstructed scene-level points, and further enhance the model’s detection capabilities by developing three stages of generalization: progressing from complete to partial, static to dynamic, and close to distant. Experiments conducted on the large-scale Waymo Open Dataset show that the performance of BA$^2$-Det is on par with the fully-supervised methods using 10% annotations. Additionally, using large raw videos for pretraining,BA$^2$-Det can achieve a 20% relative improvement on the KITTI dataset. The method also has great potential for detecting open-set 3D objects in complex scenes. Project page: https://ba2det.site.

arxiv情報

著者 Jiawei He,Yuqi Wang,Yuntao Chen,Zhaoxiang Zhang
発行日 2024-02-06 11:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク