要約
登録された3次元点群の収集とラベリングにはコストがかかる。その結果、学習用の3Dリソースは、2D画像に対応するものと比較して、一般的に数量が限られている。本研究では、RGB-D画像を介して強力な2Dモデルから知識を伝達することにより、3Dタスクのデータ不足の課題に対処する。具体的には、2次元画像のための強力でよく訓練されたセマンティックセグメンテーションモデルを利用して、RGB-D画像に擬似ラベルを付加する。この増強されたデータセットは、3Dモデルの事前学習に利用できる。最後に、少数のラベル付き3Dインスタンスで微調整を行うだけで、我々の手法は3Dラベルの効率に合わせた既存の最先端技術を既に凌駕している。また、Mean-teacherやエントロピー最小化の結果が我々の事前学習によって改善されることを示し、伝達された知識が半教師付き設定において有用であることを示唆する。また,本手法の有効性を2種類の3Dモデルと3種類のタスクで検証する.ScanNetの公式評価では、データ効率の良いトラックで、最先端の意味的セグメンテーションの結果を確立している。
要約(オリジナル)
Collecting and labeling the registered 3D point cloud is costly. As a result, 3D resources for training are typically limited in quantity compared to the 2D images counterpart. In this work, we deal with the data scarcity challenge of 3D tasks by transferring knowledge from strong 2D models via RGB-D images. Specifically, we utilize a strong and well-trained semantic segmentation model for 2D images to augment RGB-D images with pseudo-label. The augmented dataset can then be used to pre-train 3D models. Finally, by simply fine-tuning on a few labeled 3D instances, our method already outperforms existing state-of-the-art that is tailored for 3D label efficiency. We also show that the results of mean-teacher and entropy minimization can be improved by our pre-training, suggesting that the transferred knowledge is helpful in semi-supervised setting. We verify the effectiveness of our approach on two popular 3D models and three different tasks. On ScanNet official evaluation, we establish new state-of-the-art semantic segmentation results on the data-efficient track.
arxiv情報
著者 | Ping-Chung Yu,Cheng Sun,Min Sun |
発行日 | 2022-10-06 14:09:41+00:00 |
arxivサイト | arxiv_id(pdf) |