EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation

要約

セマンティック セグメンテーションは本質的に広範なピクセル レベルの注釈付きデータに依存しており、教師なし手法の出現につながりました。
中でも、教師なしセマンティック セグメンテーション (USS) に自己教師あり Vision Transformers を活用することで、表現力豊かな深い機能が着実に進歩しています。
しかし、複雑なオブジェクトを含む画像をセマンティックにセグメント化する場合、パッチレベルの特徴に明示的なオブジェクトレベルのセマンティックエンコーディングが欠如しているという大きな課題が残っています。
この技術的な制限により、多くの場合、多様な構造を持つ複雑なオブジェクトのセグメンテーションが不十分になることがあります。
このギャップに対処するために、教師なしセマンティック セグメンテーションのためのオブジェクト中心の表現学習に重点を置く新しいアプローチ EAGLE を提案します。
具体的には、画像の深い特徴と色の類似性の意味論的類似性マトリックスから導出された固有基底を通じて意味論的および構造的手がかりを提供するスペクトル技術である、EiCue を紹介します。
さらに、EiCue にオブジェクト中心のコントラスト損失を組み込むことで、画像内および画像間のオブジェクトの特徴の一貫性を備えたオブジェクトレベルの表現を学習するようにモデルを導き、それによって意味の精度を向上させます。
COCO-Stuff、Cityscapes、および Potsdam-3 データセットに関する広範な実験により、複雑なシーン全体にわたって正確かつ一貫したセマンティック セグメンテーションによる EAGLE の最先端の USS 結果が実証されています。

要約(オリジナル)

Semantic segmentation has innately relied on extensive pixel-level annotated data, leading to the emergence of unsupervised methodologies. Among them, leveraging self-supervised Vision Transformers for unsupervised semantic segmentation (USS) has been making steady progress with expressive deep features. Yet, for semantically segmenting images with complex objects, a predominant challenge remains: the lack of explicit object-level semantic encoding in patch-level features. This technical limitation often leads to inadequate segmentation of complex objects with diverse structures. To address this gap, we present a novel approach, EAGLE, which emphasizes object-centric representation learning for unsupervised semantic segmentation. Specifically, we introduce EiCue, a spectral technique providing semantic and structural cues through an eigenbasis derived from the semantic similarity matrix of deep image features and color affinity from an image. Further, by incorporating our object-centric contrastive loss with EiCue, we guide our model to learn object-level representations with intra- and inter-image object-feature consistency, thereby enhancing semantic accuracy. Extensive experiments on COCO-Stuff, Cityscapes, and Potsdam-3 datasets demonstrate the state-of-the-art USS results of EAGLE with accurate and consistent semantic segmentation across complex scenes.

arxiv情報

著者 Chanyoung Kim,Woojung Han,Dayun Ju,Seong Jae Hwang
発行日 2024-04-05 16:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク