Semi-Supervised 3D Object Detection with Chanel Augmentation using Transformation Equivariance

要約

自動運転車やロボットが安全かつ効果的に環境を移動し、環境と対話するには、正確な 3D オブジェクトの検出が不可欠です。
一方、3D 検出器のパフォーマンスはデータ サイズとアノテーションに依存しており、コストがかかります。
その結果、限られたラベル付きデータを使用したトレーニングの需要が高まっています。
私たちは、3D 半教師あり物体検出のためのチャネル拡張を採用した、新しい教師と生徒のフレームワークを探索します。
教師と生徒の SSL は通常、教師と生徒にそれぞれ弱い拡張と強い拡張を採用します。
この研究では、変換等分散検出器 (TED) を使用して両方のネットワークに複数のチャネル拡張を適用します。
TED を使用すると、点群上の拡張のさまざまな組み合わせを探索し、マルチチャネル変換等分散特徴を効率的に集約できます。
原則として、教師ネットワークに固定チャネル拡張を採用することで、生徒は信頼できる疑似ラベルで安定してトレーニングできます。
強力なチャネル拡張を採用すると、データの多様性が高まり、変換に対する堅牢性が促進され、学生ネットワークの汎化パフォーマンスが向上します。
SOTA 階層監視をベースラインとして使用し、その二重しきい値を TED に適応させます。これは、チャネル IoU 一貫性と呼ばれます。
私たちは KITTI データセットを使用してメソッドを評価し、SOTA 3D 半教師あり物体検出モデルを超える大幅なパフォーマンスの向上を達成しました。

要約(オリジナル)

Accurate 3D object detection is crucial for autonomous vehicles and robots to navigate and interact with the environment safely and effectively. Meanwhile, the performance of 3D detector relies on the data size and annotation which is expensive. Consequently, the demand of training with limited labeled data is growing. We explore a novel teacher-student framework employing channel augmentation for 3D semi-supervised object detection. The teacher-student SSL typically adopts a weak augmentation and strong augmentation to teacher and student, respectively. In this work, we apply multiple channel augmentations to both networks using the transformation equivariance detector (TED). The TED allows us to explore different combinations of augmentation on point clouds and efficiently aggregates multi-channel transformation equivariance features. In principle, by adopting fixed channel augmentations for the teacher network, the student can train stably on reliable pseudo-labels. Adopting strong channel augmentations can enrich the diversity of data, fostering robustness to transformations and enhancing generalization performance of the student network. We use SOTA hierarchical supervision as a baseline and adapt its dual-threshold to TED, which is called channel IoU consistency. We evaluate our method with KITTI dataset, and achieved a significant performance leap, surpassing SOTA 3D semi-supervised object detection models.

arxiv情報

著者 Minju Kang,Taehun Kong,Tae-Kyun Kim
発行日 2024-09-10 15:22:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク