要約
半教師ありオブジェクト検出は 3D シーンの理解にとって重要であり、大規模な 3D 境界ボックスの注釈を取得する際の制限に効率的に対処します。
既存の方法は通常、ラベルのない点群を活用するために、疑似ラベルを備えた教師と生徒のフレームワークを採用しています。
ただし、多様な 3D 空間で信頼性の高い疑似ラベルを作成することは依然として困難です。
この研究では、半教師あり 3D オブジェクト検出のための拡散モデルを介して擬似ラベルの品質を向上させる新しい視点である Diffusion-SS3D を提案します。
具体的には、ノイズを含めて破損した 3D オブジェクトのサイズとクラス ラベルの分布を生成し、拡散モデルをノイズ除去プロセスとして利用してバウンディング ボックスの出力を取得します。
さらに、拡散モデルを教師と生徒のフレームワークに統合し、ノイズ除去された境界ボックスを使用して擬似ラベル生成と半教師あり学習プロセス全体を改善できるようにします。
私たちは、ScanNet および SUN RGB-D ベンチマーク データセットで実験を実施し、私たちのアプローチが既存の方法に対して最先端のパフォーマンスを達成することを実証しました。
また、拡散モデルの設計が半教師あり学習のパフォーマンスにどのような影響を与えるかを理解するための広範な分析も紹介します。
要約(オリジナル)
Semi-supervised object detection is crucial for 3D scene understanding, efficiently addressing the limitation of acquiring large-scale 3D bounding box annotations. Existing methods typically employ a teacher-student framework with pseudo-labeling to leverage unlabeled point clouds. However, producing reliable pseudo-labels in a diverse 3D space still remains challenging. In this work, we propose Diffusion-SS3D, a new perspective of enhancing the quality of pseudo-labels via the diffusion model for semi-supervised 3D object detection. Specifically, we include noises to produce corrupted 3D object size and class label distributions, and then utilize the diffusion model as a denoising process to obtain bounding box outputs. Moreover, we integrate the diffusion model into the teacher-student framework, so that the denoised bounding boxes can be used to improve pseudo-label generation, as well as the entire semi-supervised learning process. We conduct experiments on the ScanNet and SUN RGB-D benchmark datasets to demonstrate that our approach achieves state-of-the-art performance against existing methods. We also present extensive analysis to understand how our diffusion model design affects performance in semi-supervised learning.
arxiv情報
著者 | Cheng-Ju Ho,Chen-Hsuan Tai,Yen-Yu Lin,Ming-Hsuan Yang,Yi-Hsuan Tsai |
発行日 | 2023-12-05 18:54:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google