Self-supervised Semantic Segmentation Grounded in Visual Concepts

要約

教師なしセマンティックセグメンテーションでは、人間の注釈なしですべてのピクセルにラベルを割り当てる必要があります。
個々の画像の教師あり表現学習の最近の進歩にもかかわらず、ピクセルレベルの表現による教師なしセマンティックセグメンテーションは依然として困難な作業であり、未踏のままです。
本研究では、画像から抽出した視覚的概念(パーツ、オブジェクト、シーンなどの意味的意味を持つピクセルのグループ)を使用して、セマンティックセグメンテーションのための自己監視ピクセル表現学習方法を提案します。
自己教師あり学習をガイドするために、ピクセルとローカルコンセプト、ローカルコンセプトとグローバルコンセプト、およびコンセプトの共起の関係を含む、ピクセルとコンセプト間の3種類の関係を活用します。
PASCAL VOC 2012、COCO 2017、DAVIS 2017を含む3つのデータセットで、学習したピクセル埋め込みと視覚的概念を評価します。提案された方法は、最近の監視されていないセマンティックセグメンテーションアプローチよりも一貫して大幅に改善され、視覚的概念も実証されています。
画像データセットへの洞察を明らかにすることができます。

要約(オリジナル)

Unsupervised semantic segmentation requires assigning a label to every pixel without any human annotations. Despite recent advances in self-supervised representation learning for individual images, unsupervised semantic segmentation with pixel-level representations is still a challenging task and remains underexplored. In this work, we propose a self-supervised pixel representation learning method for semantic segmentation by using visual concepts (i.e., groups of pixels with semantic meanings, such as parts, objects, and scenes) extracted from images. To guide self-supervised learning, we leverage three types of relationships between pixels and concepts, including the relationships between pixels and local concepts, local and global concepts, as well as the co-occurrence of concepts. We evaluate the learned pixel embeddings and visual concepts on three datasets, including PASCAL VOC 2012, COCO 2017, and DAVIS 2017. Our results show that the proposed method gains consistent and substantial improvements over recent unsupervised semantic segmentation approaches, and also demonstrate that visual concepts can reveal insights into image datasets.

arxiv情報

著者 Wenbin He,William Surmeier,Arvind Kumar Shekar,Liang Gou,Liu Ren
発行日 2022-07-26 12:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク