要約
実世界環境における正確な3D物体検出には、高品質で膨大な量のアノテーションデータが必要である。このようなデータの取得は面倒で高価であり、新しいセンサの採用時や検出器が新しい環境に配置されたときに、しばしば繰り返しの労力を必要とする。我々は、3次元物体検出器を構築するための新しいシナリオとして、高精度な検出器を搭載した近くのユニットの予測から学習することを検討する。例えば、自動運転車が新しいエリアに入ったとき、そのエリアに最適化された検出器を持つ他の交通参加者から学習することができる。この設定はラベル効率に優れ、センサーに依存せず、通信効率に優れています。近くのユニットはエゴエージェント(例えば車)と予測を共有するだけでよいのです。しかしながら、エゴ・カー用の検出器を訓練するために、受信した予測値を基底真理としてナイーブに使用すると、性能が劣ることになる。我々はこの問題を系統的に研究し、視点の不一致と(同期やGPSエラーによる)ミスローカライゼーションが主な原因であることを特定する。我々は、距離ベースのカリキュラムを提案する。まず、同じような視点を持つより近いユニットから学習し、その後、自己訓練によって他のユニットの予測の質を向上させる。さらに、効果的な擬似ラベル精密化モジュールが、わずかな注釈付きデータで学習できることを実証し、物体検出器の学習に必要なデータ量を大幅に削減する。最近公開された実世界の協調運転データセットにおいて、参照車の予測をエゴ・カーの擬似ラベルとして用いて、本アプローチを検証する。いくつかのシナリオ(例えば、異なるセンサー、検出器、ドメイン)を含む広範な実験により、他のユニットの予測から3D知覚のラベル効率的学習に対する我々のアプローチの有効性を実証する。
要約(オリジナル)
Accurate 3D object detection in real-world environments requires a huge amount of annotated data with high quality. Acquiring such data is tedious and expensive, and often needs repeated effort when a new sensor is adopted or when the detector is deployed in a new environment. We investigate a new scenario to construct 3D object detectors: learning from the predictions of a nearby unit that is equipped with an accurate detector. For example, when a self-driving car enters a new area, it may learn from other traffic participants whose detectors have been optimized for that area. This setting is label-efficient, sensor-agnostic, and communication-efficient: nearby units only need to share the predictions with the ego agent (e.g., car). Naively using the received predictions as ground-truths to train the detector for the ego car, however, leads to inferior performance. We systematically study the problem and identify viewpoint mismatches and mislocalization (due to synchronization and GPS errors) as the main causes, which unavoidably result in false positives, false negatives, and inaccurate pseudo labels. We propose a distance-based curriculum, first learning from closer units with similar viewpoints and subsequently improving the quality of other units’ predictions via self-training. We further demonstrate that an effective pseudo label refinement module can be trained with a handful of annotated data, largely reducing the data quantity necessary to train an object detector. We validate our approach on the recently released real-world collaborative driving dataset, using reference cars’ predictions as pseudo labels for the ego car. Extensive experiments including several scenarios (e.g., different sensors, detectors, and domains) demonstrate the effectiveness of our approach toward label-efficient learning of 3D perception from other units’ predictions.
arxiv情報
著者 | Jinsu Yoo,Zhenyang Feng,Tai-Yu Pan,Yihong Sun,Cheng Perng Phoo,Xiangyu Chen,Mark Campbell,Kilian Q. Weinberger,Bharath Hariharan,Wei-Lun Chao |
発行日 | 2024-10-03 16:31:28+00:00 |
arxivサイト | arxiv_id(pdf) |