Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals

要約

教師なしセマンティック セグメンテーションは、いかなる形式の注釈も付けずに画像コーパス内のグローバル カテゴリを識別することにより、画像を意味的に意味のある領域に自動的に分割することを目的としています。
自己教師あり表現学習の最近の進歩に基づいて、私たちはこれらの大規模な事前トレーニング済みモデルを教師なしセグメンテーションの下流タスクに活用する方法に焦点を当てています。
私たちは、画像をその特徴表現に基づいて意味的に意味のあるマスクに分解する PriMaPs (主要マスク提案) を提示します。
これにより、確率的期待値最大化アルゴリズム PriMaPs-EM を使用してクラス プロトタイプを PriMaP に適合させることにより、教師なしセマンティック セグメンテーションを実現できます。
PriMaPs-EM は、概念的な単純さにも関わらず、DINO や DINOv2 などのさまざまな事前トレーニング済みバックボーン モデルや、Cityscapes、COCO-Stuff、Potsdam-3 などのデータセット全体で競争力のある結果をもたらします。
重要なのは、PriMaPs-EM は、現在の最先端の教師なしセマンティック セグメンテーション パイプラインに直交して適用すると、結果を向上させることができます。

要約(オリジナル)

Unsupervised semantic segmentation aims to automatically partition images into semantically meaningful regions by identifying global categories within an image corpus without any form of annotation. Building upon recent advances in self-supervised representation learning, we focus on how to leverage these large pre-trained models for the downstream task of unsupervised segmentation. We present PriMaPs – Principal Mask Proposals – decomposing images into semantically meaningful masks based on their feature representation. This allows us to realize unsupervised semantic segmentation by fitting class prototypes to PriMaPs with a stochastic expectation-maximization algorithm, PriMaPs-EM. Despite its conceptual simplicity, PriMaPs-EM leads to competitive results across various pre-trained backbone models, including DINO and DINOv2, and across datasets, such as Cityscapes, COCO-Stuff, and Potsdam-3. Importantly, PriMaPs-EM is able to boost results when applied orthogonally to current state-of-the-art unsupervised semantic segmentation pipelines.

arxiv情報

著者 Oliver Hahn,Nikita Araslanov,Simone Schaub-Meyer,Stefan Roth
発行日 2024-04-25 17:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク