Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene

要約

教師なし 3D オブジェクト検出は、明示的な監視信号がない非構造化環境でオブジェクトを正確に検出します。
このタスクでは、LiDAR 点群がまばらであるため、固有のまばらさと限られた空間解像度により、遠くの物体や小さな物体を検出するパフォーマンスが低下することがよくあります。
この論文では、教師なし 3D 検出のために LiDAR データを 2D 画像と統合する初期の試みの 1 つとして、LiDAR-2D Self-paced Learning (LiSe) と呼ばれる新しい方法を紹介します。
私たちは、RGB 画像が LiDAR データを補完する価値のあるものとして機能し、特に特定の物体に利用可能な LiDAR ポイントが不足している場合に、正確な 2D 位置特定の手がかりを提供すると主張します。
両方のモダリティの固有の特性を考慮して、私たちのフレームワークは、適応サンプリングと弱いモデル集約戦略を組み込んだ自己ペース学習パイプラインを考案します。
適応サンプリング戦略は、トレーニング中に擬似ラベルの分布を動的に調整し、近くの大きなオブジェクトなど、簡単に検出されるサンプルをモデルがオーバーフィットする傾向に対抗します。
そうすることで、さまざまなオブジェクトのスケールや距離にわたってバランスのとれた学習軌道が保証されます。
弱いモデルの集約コンポーネントは、さまざまな擬似ラベル分布の下でトレーニングされたモデルの長所を統合し、堅牢で強力な最終モデルを完成させます。
実験による評価では、提案した LiSe メソッドの有効性が検証され、nuScenes では +7.1% AP$_{BEV}$、+3.4% AP$_{3D}$、+8.3% AP$_{BEV}$ という大幅な改善が見られました。
既存の技術と比較して、Lyft の AP$_{3D}$ は +7.4% です。

要約(オリジナル)

The unsupervised 3D object detection is to accurately detect objects in unstructured environments with no explicit supervisory signals. This task, given sparse LiDAR point clouds, often results in compromised performance for detecting distant or small objects due to the inherent sparsity and limited spatial resolution. In this paper, we are among the early attempts to integrate LiDAR data with 2D images for unsupervised 3D detection and introduce a new method, dubbed LiDAR-2D Self-paced Learning (LiSe). We argue that RGB images serve as a valuable complement to LiDAR data, offering precise 2D localization cues, particularly when scarce LiDAR points are available for certain objects. Considering the unique characteristics of both modalities, our framework devises a self-paced learning pipeline that incorporates adaptive sampling and weak model aggregation strategies. The adaptive sampling strategy dynamically tunes the distribution of pseudo labels during training, countering the tendency of models to overfit easily detected samples, such as nearby and large-sized objects. By doing so, it ensures a balanced learning trajectory across varying object scales and distances. The weak model aggregation component consolidates the strengths of models trained under different pseudo label distributions, culminating in a robust and powerful final model. Experimental evaluations validate the efficacy of our proposed LiSe method, manifesting significant improvements of +7.1% AP$_{BEV}$ and +3.4% AP$_{3D}$ on nuScenes, and +8.3% AP$_{BEV}$ and +7.4% AP$_{3D}$ on Lyft compared to existing techniques.

arxiv情報

著者 Ruiyang Zhang,Hu Zhang,Hang Yu,Zhedong Zheng
発行日 2024-07-11 14:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク