Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation

要約

この論文では、単なる画像とテキストのペアを使用して任意のクラスのオブジェクトをセグメント化することを学習する弱いオープン語彙セマンティック セグメンテーション (WOVSS) の問題を研究します。
既存の研究では、明示的なグループ化認識を導入することによって、バニラ ビジョン トランスフォーマーを強化するようになりました。つまり、いくつかのグループ トークン/セントロイドを使用して画像トークンをクラスター化し、グループとテキストの位置合わせを実行します。
それにもかかわらず、これらのメソッドには、グループ トークンの使用に関して粒度の一貫性がないという問題があります。グループ トークンは、全対 1 対 1 で調整されています。
トレーニング段階と推論段階では、それぞれ 1 対 1 の方式で行われます。
この不一致は、各グループ トークンに対する入念な監視が欠如しているために生じると私たちは主張します。
この粒度のギャップを埋めるために、この論文では、プロトタイプの知識に基づいたグループ トークンの明示的な監視を検討します。
この目的を達成するために、この論文では、学習不可能なプロトタイプ正則化 (NPR) を提案します。NPR では、学習不可能なプロトタイプがソース特徴から推定され、監視として機能し、グループ トークンの対照的なマッチングが可能になります。
この正則化により、グループ トークンが冗長性の低いオブジェクトをセグメント化し、より包括的なセマンティック領域をキャプチャできるようになり、コンパクトさとリッチさが向上します。
NPR に基づいて、さまざまなレベルの画像とテキストの両方からのプロトタイプ ソースを活用することにより、マルチモーダル正則化を組み込んだプロトタイプ ガイダンス セグメンテーション ネットワーク (PGSeg) を提案し、多様なプロトタイプ パターンでセグメンテーション機能を段階的に強化します。
実験結果は、私たちが提案した方法がいくつかのベンチマーク データセットで最先端のパフォーマンスを達成することを示しています。
ソース コードは https://github.com/Ferenas/PGSeg で入手できます。

要約(オリジナル)

This paper studies the problem of weakly open-vocabulary semantic segmentation (WOVSS), which learns to segment objects of arbitrary classes using mere image-text pairs. Existing works turn to enhance the vanilla vision transformer by introducing explicit grouping recognition, i.e., employing several group tokens/centroids to cluster the image tokens and perform the group-text alignment. Nevertheless, these methods suffer from a granularity inconsistency regarding the usage of group tokens, which are aligned in the all-to-one v.s. one-to-one manners during the training and inference phases, respectively. We argue that this discrepancy arises from the lack of elaborate supervision for each group token. To bridge this granularity gap, this paper explores explicit supervision for the group tokens from the prototypical knowledge. To this end, this paper proposes the non-learnable prototypical regularization (NPR) where non-learnable prototypes are estimated from source features to serve as supervision and enable contrastive matching of the group tokens. This regularization encourages the group tokens to segment objects with less redundancy and capture more comprehensive semantic regions, leading to increased compactness and richness. Based on NPR, we propose the prototypical guidance segmentation network (PGSeg) that incorporates multi-modal regularization by leveraging prototypical sources from both images and texts at different levels, progressively enhancing the segmentation capability with diverse prototypical patterns. Experimental results show that our proposed method achieves state-of-the-art performance on several benchmark datasets. The source code is available at https://github.com/Ferenas/PGSeg.

arxiv情報

著者 Fei Zhang,Tianfei Zhou,Boyang Li,Hao He,Chaofan Ma,Tianjiao Zhang,Jiangchao Yao,Ya Zhang,Yanfeng Wang
発行日 2023-10-29 13:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク