要約
この作業では、推定された深度を活用して、都市シーンのセグメンテーションのための自己教師付き対照学習を促進します。この場合、自己教師付き深度推定をトレーニングするために、ラベルのないビデオをすぐに利用できます。
3D 空間内の一貫したピクセル グループのセマンティクスは自己完結型であり、それらが表示されるコンテキストに対して不変であると主張します。
コヒーレントで意味的に関連するピクセルを、推定された深さを考慮してコヒーレントな深さ領域にグループ化し、コピーと貼り付けを使用してそれらのコンテキストを合成的に変化させます。
このようにして、クロスコンテキスト対応が対照学習で構築され、コンテキスト不変表現が学習されます。
都市シーンの教師なしセマンティック セグメンテーションの場合、私たちの方法は、以前の最先端のベースラインを、都市景観の mIoU で +7.14%、KITTI で +6.65% 上回っています。
Cityscapes と KITTI セグメンテーションの微調整では、私たちの方法は既存のモデルと競合しますが、ImageNet や COCO で事前トレーニングする必要はなく、計算効率も向上します。
コードは https://github.com/LeungTsang/CPCDR で入手できます
要約(オリジナル)
In this work, we leverage estimated depth to boost self-supervised contrastive learning for segmentation of urban scenes, where unlabeled videos are readily available for training self-supervised depth estimation. We argue that the semantics of a coherent group of pixels in 3D space is self-contained and invariant to the contexts in which they appear. We group coherent, semantically related pixels into coherent depth regions given their estimated depth and use copy-paste to synthetically vary their contexts. In this way, cross-context correspondences are built in contrastive learning and a context-invariant representation is learned. For unsupervised semantic segmentation of urban scenes, our method surpasses the previous state-of-the-art baseline by +7.14% in mIoU on Cityscapes and +6.65% on KITTI. For fine-tuning on Cityscapes and KITTI segmentation, our method is competitive with existing models, yet, we do not need to pre-train on ImageNet or COCO, and we are also more computationally efficient. Our code is available on https://github.com/LeungTsang/CPCDR
arxiv情報
著者 | Liang Zeng,Attila Lengyel,Nergis Tömen,Jan van Gemert |
発行日 | 2022-11-25 12:52:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google