A Lightweight Clustering Framework for Unsupervised Semantic Segmentation

要約

教師なしセマンティック セグメンテーションは、注釈付きデータを使用せずに、画像内の各ピクセルを対応するクラスに分類することを目的としています。
ラベル付きデータセットの取得には費用がかかるため、広く研究されている分野です。
この分野でのこれまでの研究では、モデルの精度が徐々に向上することが実証されていますが、ほとんどの場合、ニューラル ネットワークのトレーニングが必要でした。
これにより、特に大規模なデータセットを扱う場合、セグメンテーションのコストも同様に高くなります。
したがって、教師なしセマンティック セグメンテーションのための軽量クラスタリング フレームワークを提案します。
私たちは、自己教師ありビジョン Transformer の注意特徴が前景と背景の強力な微分可能性を示すことを発見しました。
したがって、クラスタリングを使用して、前景画像パッチと背景画像パッチを効果的に分離できます。
私たちのフレームワークでは、まずデータセット レベル、カテゴリ レベル、画像レベルにわたってマルチレベル クラスタリングを実行し、全体の一貫性を維持します。
次に、抽出されたバイナリ パッチ レベルの擬似マスクがアップサンプリングされ、洗練され、最終的にラベルが付けられます。
さらに、私たちの主張を正当化するために、自己監視型 Vision Transformer の機能の包括的な分析と DINO と DINOv2 の詳細な比較を提供します。
私たちのフレームワークは、教師なしセマンティック セグメンテーションにおいて大きな可能性を示し、PASCAL VOC および MS COCO データセットで最先端の結果を達成します。

要約(オリジナル)

Unsupervised semantic segmentation aims to categorize each pixel in an image into a corresponding class without the use of annotated data. It is a widely researched area as obtaining labeled datasets is expensive. While previous works in the field have demonstrated a gradual improvement in model accuracy, most required neural network training. This made segmentation equally expensive, especially when dealing with large-scale datasets. We thus propose a lightweight clustering framework for unsupervised semantic segmentation. We discovered that attention features of the self-supervised Vision Transformer exhibit strong foreground-background differentiability. Therefore, clustering can be employed to effectively separate foreground and background image patches. In our framework, we first perform multilevel clustering across the Dataset-level, Category-level, and Image-level, and maintain consistency throughout. Then, the binary patch-level pseudo-masks extracted are upsampled, refined and finally labeled. Furthermore, we provide a comprehensive analysis of the self-supervised Vision Transformer features and a detailed comparison between DINO and DINOv2 to justify our claims. Our framework demonstrates great promise in unsupervised semantic segmentation and achieves state-of-the-art results on PASCAL VOC and MS COCO datasets.

arxiv情報

著者 Yau Shing Jonathan Cheung,Xi Chen,Lihe Yang,Hengshuang Zhao
発行日 2023-12-29 04:57:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク