Self-Supervised Visual Representation Learning with Semantic Grouping

要約

この論文では、ラベル付けされていないシーン中心のデータから視覚的表現を学習する問題に取り組みます。
既存の作品は、シーン中心のデータ内の基礎となる複雑な構造を利用する可能性を実証しています。
それでも、学習フレームワークを構築するために手作りの客観性優先順位または特殊な口実タスクに依存することが一般的であり、一般化可能性が損なわれる可能性があります。
代わりに、共同セマンティック グループ化と表現学習のために、データ駆動型セマンティック スロット、つまり SlotCon からの対照的な学習を提案します。
セマンティック グループ化は、学習可能なプロトタイプのセットにピクセルを割り当てることによって実行されます。このプロトタイプは、機能を注意深くプールすることで各サンプルに適応し、新しいスロットを形成できます。
学習されたデータ依存スロットに基づいて、表現学習に対照的な目的が採用されます。これにより、特徴の識別可能性が向上し、逆に意味的に一貫したピクセルのグループ化が容易になります。
以前の取り組みと比較して、セマンティック グループ化と対照学習という 2 つの結合された目的を同時に最適化することにより、私たちのアプローチは手作りの事前確率の欠点を回避し、シーン中心の画像からオブジェクト/グループ レベルの表現を学習することができます。
実験では、私たちのアプローチが複雑なシーンを機能学習用のセマンティック グループに効果的に分解し、オブジェクト検出、インスタンス セグメンテーション、セマンティック セグメンテーションなどのダウンストリーム タスクに大きなメリットをもたらすことが示されています。
コードは https://github.com/CVMI-Lab/SlotCon で入手できます。

要約(オリジナル)

In this paper, we tackle the problem of learning visual representations from unlabeled scene-centric data. Existing works have demonstrated the potential of utilizing the underlying complex structure within scene-centric data; still, they commonly rely on hand-crafted objectness priors or specialized pretext tasks to build a learning framework, which may harm generalizability. Instead, we propose contrastive learning from data-driven semantic slots, namely SlotCon, for joint semantic grouping and representation learning. The semantic grouping is performed by assigning pixels to a set of learnable prototypes, which can adapt to each sample by attentive pooling over the feature and form new slots. Based on the learned data-dependent slots, a contrastive objective is employed for representation learning, which enhances the discriminability of features, and conversely facilitates grouping semantically coherent pixels together. Compared with previous efforts, by simultaneously optimizing the two coupled objectives of semantic grouping and contrastive learning, our approach bypasses the disadvantages of hand-crafted priors and is able to learn object/group-level representations from scene-centric images. Experiments show our approach effectively decomposes complex scenes into semantic groups for feature learning and significantly benefits downstream tasks, including object detection, instance segmentation, and semantic segmentation. Code is available at: https://github.com/CVMI-Lab/SlotCon.

arxiv情報

著者 Xin Wen,Bingchen Zhao,Anlin Zheng,Xiangyu Zhang,Xiaojuan Qi
発行日 2022-10-10 15:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク