CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation

要約

タイトル: CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation

要約:
– 既存のセマンティックセグメンテーション手法は、コストのかかるピクセル単位の注釈と、事前に定義されたクラスに制限されることが多い。
– 本研究では、自己教師ありピクセル表現学習とビジョン言語モデルを活用するCLIP-S$^4$を提案し、人間の注釈や未知のクラス情報のない様々なセマンティックセグメンテーションタスクを可能にする。
– まず、異なる拡張ビューの画像からピクセル-セグメントコントラスト学習によってピクセル埋め込みを学習する。
– ビジョン-言語モデルによる二つの一貫性により、ピクセル埋め込みを改良し、言語によるセマンティックセグメンテーションを可能にする。
– CLIP-S$^4$は、知られているプロトタイプと未知のプロトタイプを持つ特定のクラスに関して、CLIPと同じ予測を行うようにモデルを強制してセマンティック一貫性を実現する。
– CLIP-S$^4$はクラスフリーなセマンティックセグメンテーションタスクを可能にし、トレーニング中に未知のクラス情報が必要ではない。
– 結果として、CLIP-S$^4$アプローチは、最新の自己教師なしおよび言語によるセマンティックセグメンテーション手法に比べて、4つの人気のベンチマークにおいて一貫して大幅な性能向上を示し、特に未知のクラス認識において大きな差を示した。

要約(オリジナル)

Existing semantic segmentation approaches are often limited by costly pixel-wise annotations and predefined classes. In this work, we present CLIP-S$^4$ that leverages self-supervised pixel representation learning and vision-language models to enable various semantic segmentation tasks (e.g., unsupervised, transfer learning, language-driven segmentation) without any human annotations and unknown class information. We first learn pixel embeddings with pixel-segment contrastive learning from different augmented views of images. To further improve the pixel embeddings and enable language-driven semantic segmentation, we design two types of consistency guided by vision-language models: 1) embedding consistency, aligning our pixel embeddings to the joint feature space of a pre-trained vision-language model, CLIP; and 2) semantic consistency, forcing our model to make the same predictions as CLIP over a set of carefully designed target classes with both known and unknown prototypes. Thus, CLIP-S$^4$ enables a new task of class-free semantic segmentation where no unknown class information is needed during training. As a result, our approach shows consistent and substantial performance improvement over four popular benchmarks compared with the state-of-the-art unsupervised and language-driven semantic segmentation methods. More importantly, our method outperforms these methods on unknown class recognition by a large margin.

arxiv情報

著者 Wenbin He,Suphanut Jamonnak,Liang Gou,Liu Ren
発行日 2023-05-01 19:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク