DINOSTAR: Deep Iterative Neural Object Detector Self-Supervised Training for Roadside LiDAR Applications

要約

Point-Cloudデータにおけるオブジェクト検出のための深部学習方法の最近の進歩により、多数の路傍アプリケーションが可能になり、輸送の安全性と管理の改善が促進されました。
ただし、Point-Cloudデータの複雑な性質は、人間の監視されたラベル付けに大きな課題をもたらし、その結果、時間と資本の実質的な支出をもたらします。
このペーパーでは、道路側のポイントクラウドデータに合わせて調整されたディープオブジェクト検出器をトレーニングするためのエンドツーエンド、スケーラブル、および自己監視のフレームワークを開発することにより、問題に対処します。
提案されたフレームワークは、自己監督の統計的にモデル化された教師を活用して、既製の深いオブジェクト検出器を訓練し、人間の監督の必要性を回避します。
教師モデルは、バックグラウンドフィルタリング、オブジェクトクラスタリング、バウンディングボックスフィッティング、およびノイズの多いラベルを生成する分類の微調整されたセット標準プラクティスに従います。
多数の教師からの騒々しい注釈を組み合わせて学生モデルをトレーニングすることにより、バックグラウンド/フォアグラウンドをより効果的に識別する能力を高め、関心のあるオブジェクトカテゴリの多様なポイントクラウドの表現を学ぶように強制することが示されています。
公的に利用可能な道端のデータセットと最先端の深いオブジェクト検出器を含む評価は、提案されたフレームワークが、そのような人間の解決をそのトレーニングプロセスで利用していないにもかかわらず、人間が注目したラベルでトレーニングされたディープオブジェクト検出器に匹敵するパフォーマンスを達成することを示しています。

要約(オリジナル)

Recent advancements in deep-learning methods for object detection in point-cloud data have enabled numerous roadside applications, fostering improvements in transportation safety and management. However, the intricate nature of point-cloud data poses significant challenges for human-supervised labeling, resulting in substantial expenditures of time and capital. This paper addresses the issue by developing an end-to-end, scalable, and self-supervised framework for training deep object detectors tailored for roadside point-cloud data. The proposed framework leverages self-supervised, statistically modeled teachers to train off-the-shelf deep object detectors, thus circumventing the need for human supervision. The teacher models follow fine-tuned set standard practices of background filtering, object clustering, bounding-box fitting, and classification to generate noisy labels. It is presented that by training the student model over the combined noisy annotations from multitude of teachers enhances its capacity to discern background/foreground more effectively and forces it to learn diverse point-cloud-representations for object categories of interest. The evaluations, involving publicly available roadside datasets and state-of-art deep object detectors, demonstrate that the proposed framework achieves comparable performance to deep object detectors trained on human-annotated labels, despite not utilizing such human-annotations in its training process.

arxiv情報

著者 Muhammad Shahbaz,Shaurya Agarwal
発行日 2025-01-28 17:01:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4 パーマリンク