要約
LiDAR 点群における正確な 3D オブジェクト検出は、自動運転システムにとって非常に重要です。
最先端のパフォーマンスを達成するには、検出器の教師ありトレーニングには人間が注釈を付けた大量のデータが必要ですが、取得にはコストがかかり、事前定義されたオブジェクト カテゴリに制限されます。
手動によるラベル付け作業を軽減するために、最近の教師なし物体検出アプローチでは、移動する物体に対してクラスに依存しない擬似ラベルが生成され、その後、検出器をブートストラップするための監視信号として機能します。
有望な結果にもかかわらず、これらのアプローチはクラス ラベルを提供したり、静的オブジェクトをうまく一般化したりすることはできません。
さらに、それらはほとんどの場合、同じシーンからの複数のドライブを含むデータ、または正確に調整され同期されたカメラ設定からの画像に制限されます。
これらの制限を克服するために、我々は、LiDAR 点群のみで動作する、ビジョン言語ガイドによる教師なし 3D 検出アプローチを提案します。
CLIP の知識を転送して、静止物体と移動物体の点群を分類します。これは、LiDAR 点群の固有の時空間情報を利用してクラスタリング、追跡、およびボックスとラベルの改良を行うことによって発見されます。
私たちのアプローチは、Waymo Open Dataset ($+23~\text{AP}_{3D}$) および Argoverse 2 ($+7.9~\text{AP}_{) 上の最先端の教師なし 3D オブジェクト検出器を上回るパフォーマンスを発揮します。
3D}$) を使用し、オブジェクト サイズの仮定のみに基づいていないクラス ラベルを提供することで、この分野での大きな進歩を示しています。
要約(オリジナル)
Accurate 3D object detection in LiDAR point clouds is crucial for autonomous driving systems. To achieve state-of-the-art performance, the supervised training of detectors requires large amounts of human-annotated data, which is expensive to obtain and restricted to predefined object categories. To mitigate manual labeling efforts, recent unsupervised object detection approaches generate class-agnostic pseudo-labels for moving objects, subsequently serving as supervision signal to bootstrap a detector. Despite promising results, these approaches do not provide class labels or generalize well to static objects. Furthermore, they are mostly restricted to data containing multiple drives from the same scene or images from a precisely calibrated and synchronized camera setup. To overcome these limitations, we propose a vision-language-guided unsupervised 3D detection approach that operates exclusively on LiDAR point clouds. We transfer CLIP knowledge to classify point clusters of static and moving objects, which we discover by exploiting the inherent spatio-temporal information of LiDAR point clouds for clustering, tracking, as well as box and label refinement. Our approach outperforms state-of-the-art unsupervised 3D object detectors on the Waymo Open Dataset ($+23~\text{AP}_{3D}$) and Argoverse 2 ($+7.9~\text{AP}_{3D}$) and provides class labels not solely based on object size assumptions, marking a significant advancement in the field.
arxiv情報
| 著者 | Christian Fruhwirth-Reisinger,Wei Lin,Dušan Malić,Horst Bischof,Horst Possegger |
| 発行日 | 2024-08-07 14:14:53+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google