Self-Supervised Learning of Object Segmentation from Unlabeled RGB-D Videos

要約

タイトル: 未ラベル化されたRGB-Dビデオからの物体セグメンテーションの自己監督学習
要約:
– モバイルロボットによってキャプチャされた静的オブジェクトの未ラベル化されたRGB-Dビデオを使用して、RGB画像内の剛体物体をセグメンテーションするための自己監督学習システムを提案します。
– セグメンテーションのためのグラフマッチングアルゴリズムは、各ビデオから再構築されたポイントクラウドの過分節出力に作用することで、オブジェクトパターンを見つけて3Dオブジェクト疑似ラベルを生成します。
– 3D疑似ラベルからの2Dオブジェクトマスクは、対比学習を介してピクセルごとの特徴抽出器のトレーニングに使用されます。
– オンライン推論では、クラスタリング法が学習された特徴を使用してフォアグラウンドピクセルをオブジェクトセグメントにクラスタリングします。
– 実験は、卓上オブジェクトの混雑したシーンを含む実際のおよび合成のビデオデータセットで方法の有効性を示し、提案方法はオブジェクトセグメンテーションにおいて既存の非監督学習方法を大幅に上回る。

要約(オリジナル)

This work proposes a self-supervised learning system for segmenting rigid objects in RGB images. The proposed pipeline is trained on unlabeled RGB-D videos of static objects, which can be captured with a camera carried by a mobile robot. A key feature of the self-supervised training process is a graph-matching algorithm that operates on the over-segmentation output of the point cloud that is reconstructed from each video. The graph matching, along with point cloud registration, is able to find reoccurring object patterns across videos and combine them into 3D object pseudo labels, even under occlusions or different viewing angles. Projected 2D object masks from 3D pseudo labels are used to train a pixel-wise feature extractor through contrastive learning. During online inference, a clustering method uses the learned features to cluster foreground pixels into object segments. Experiments highlight the method’s effectiveness on both real and synthetic video datasets, which include cluttered scenes of tabletop objects. The proposed method outperforms existing unsupervised methods for object segmentation by a large margin.

arxiv情報

著者 Shiyang Lu,Yunfu Deng,Abdeslam Boularias,Kostas Bekris
発行日 2023-04-09 23:13:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.RO パーマリンク