要約
オートパイロット データセットのラベル付けに法外な費用がかかり、ラベルなしデータを利用する傾向が高まるにつれ、点群での半教師ありセグメンテーションがますます不可欠になっています。
直感的には、ラベル自体を超えて、より多くの「語られていない言葉」(つまり、潜在的なインスタンス情報)を見つけることは、パフォーマンスの向上に役立つはずです。
この論文では、LiDAR と画像データに埋め込まれた表示ラベルの背後にある 2 種類の潜在ラベルを発見しました。
まず、LiDAR ブランチでは、トレーニング用にさらに信頼性の高いサンプルを拡張できる新しい拡張機能である Cylinder-Mix を提案します。
次に、画像ブランチでは、インスタンスの位置とスケールの情報を学習して融合するインスタンス位置スケール学習 (IPSL) モジュールを提案します。この情報は、2D の事前トレーニングされた検出器と、3D から取得された一種の潜在ラベルからのものです。
2D投影。
最後に、2 つの潜在ラベルがマルチモーダル パノプティック セグメンテーション ネットワークに埋め込まれます。
IPSL モジュールのアブレーションはその堅牢な適応性を実証し、SemanticKITTI と nuScenes で評価された実験は、私たちのモデルが最先端の手法である LaserMix よりも優れていることを実証しました。
要約(オリジナル)
As the exorbitant expense of labeling autopilot datasets and the growing trend of utilizing unlabeled data, semi-supervised segmentation on point clouds becomes increasingly imperative. Intuitively, finding out more “unspoken words” (i.e., latent instance information) beyond the label itself should be helpful to improve performance. In this paper, we discover two types of latent labels behind the displayed label embedded in LiDAR and image data. First, in the LiDAR Branch, we propose a novel augmentation, Cylinder-Mix, which is able to augment more yet reliable samples for training. Second, in the Image Branch, we propose the Instance Position-scale Learning (IPSL) Module to learn and fuse the information of instance position and scale, which is from a 2D pre-trained detector and a type of latent label obtained from 3D to 2D projection. Finally, the two latent labels are embedded into the multi-modal panoptic segmentation network. The ablation of the IPSL module demonstrates its robust adaptability, and the experiments evaluated on SemanticKITTI and nuScenes demonstrate that our model outperforms the state-of-the-art method, LaserMix.
arxiv情報
著者 | Yujun Chen,Xin Tan,Zhizhong Zhang,Yanyun Qu,Yuan Xie |
発行日 | 2023-12-13 15:56:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google