要約
教師なしオブジェクトの発見と位置特定は、教師なしで画像内のオブジェクトを検出またはセグメント化することを目的としています。
最近の取り組みにより、自己教師付き変換機能を利用して、顕著な前景オブジェクトを識別できる注目すべき可能性が実証されました。
ただし、その範囲は画像内のパッチレベルの特徴にのみ基づいて構築されており、より広いスケールでの領域/画像レベルおよび画像間の関係は無視されています。
さらに、これらの方法では、複数のインスタンスからさまざまなセマンティクスを区別できません。
これらの問題に対処するために、対照的グループ化 (HEAP) による階層マージ フレームワークを導入します。
具体的には、クロスアテンション機構を備えた新しい軽量ヘッドは、自己教師付き特徴間の相関関係に基づいて、画像内パッチを意味的に一貫した領域に適応的にグループ化するように設計されています。
さらに、さまざまな領域間の区別性を確保するために、領域レベルのコントラスト クラスタリング損失を導入して、画像全体で類似した領域を近づけます。
また、前景と背景の表現を引き離すために画像レベルのコントラスト損失が存在し、それに応じて前景のオブジェクトと背景が発見されます。
HEAP は効率的な階層画像分解を促進し、より正確なオブジェクト検出に貢献すると同時に、さまざまなクラスのオブジェクト間の区別も可能にします。
セマンティック セグメンテーションの取得、教師なしオブジェクトの発見、顕著性検出タスクに関する広範な実験結果により、HEAP が最先端のパフォーマンスを達成できることが実証されています。
要約(オリジナル)
Unsupervised object discovery and localization aims to detect or segment objects in an image without any supervision. Recent efforts have demonstrated a notable potential to identify salient foreground objects by utilizing self-supervised transformer features. However, their scopes only build upon patch-level features within an image, neglecting region/image-level and cross-image relationships at a broader scale. Moreover, these methods cannot differentiate various semantics from multiple instances. To address these problems, we introduce Hierarchical mErging framework via contrAstive grouPing (HEAP). Specifically, a novel lightweight head with cross-attention mechanism is designed to adaptively group intra-image patches into semantically coherent regions based on correlation among self-supervised features. Further, to ensure the distinguishability among various regions, we introduce a region-level contrastive clustering loss to pull closer similar regions across images. Also, an image-level contrastive loss is present to push foreground and background representations apart, with which foreground objects and background are accordingly discovered. HEAP facilitates efficient hierarchical image decomposition, which contributes to more accurate object discovery while also enabling differentiation among objects of various classes. Extensive experimental results on semantic segmentation retrieval, unsupervised object discovery, and saliency detection tasks demonstrate that HEAP achieves state-of-the-art performance.
arxiv情報
| 著者 | Xin Zhang,Jinheng Xie,Yuan Yuan,Michael Bi Mi,Robby T. Tan |
| 発行日 | 2023-12-29 06:46:37+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google