SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation

要約

Segment Anything モデル (SAM) は、画像ピクセルをパッチにグループ化する汎用的な機能を示していますが、これをセマンティックを意識したセグメンテーションに適用するには、依然として大きな課題に直面しています。
このペーパーでは、SAM を超えて 2 種類の構成可能なプロンプトを確立し、それらを合成して汎用性の高いセグメンテーションを実現するシンプルなアプローチである SAM-CP について説明します。
具体的には、(テキスト内の) クラスのセットと SAM パッチのセットが与えられると、Type-I プロンプトは SAM パッチがテキスト ラベルと一致するかどうかを判断し、Type-II プロンプトは 2 つの SAM パッチが同じテキスト ラベルを持つかどうかを判断します。
も同じインスタンスに属します。
多数のセマンティック クラスおよびパッチを処理する際の複雑さを軽減するために、(セマンティックおよびインスタンス) クエリと SAM パッチの間の親和性を計算し、クエリに対して親和性の高いパッチをマージする統合フレームワークを確立します。
実験では、SAM-CP がオープン ドメインとクローズド ドメインの両方でセマンティック、インスタンス、パノプティック セグメンテーションを実現することが示されています。
特に、オープンボキャブラリーセグメンテーションにおいて最先端のパフォーマンスを実現します。
私たちの研究は、SAM のような視覚基盤モデルにマルチグレインの意味認識能力を装備するための、新しく一般化された方法論を提供します。

要約(オリジナル)

The Segment Anything model (SAM) has shown a generalized ability to group image pixels into patches, but applying it to semantic-aware segmentation still faces major challenges. This paper presents SAM-CP, a simple approach that establishes two types of composable prompts beyond SAM and composes them for versatile segmentation. Specifically, given a set of classes (in texts) and a set of SAM patches, the Type-I prompt judges whether a SAM patch aligns with a text label, and the Type-II prompt judges whether two SAM patches with the same text label also belong to the same instance. To decrease the complexity in dealing with a large number of semantic classes and patches, we establish a unified framework that calculates the affinity between (semantic and instance) queries and SAM patches and merges patches with high affinity to the query. Experiments show that SAM-CP achieves semantic, instance, and panoptic segmentation in both open and closed domains. In particular, it achieves state-of-the-art performance in open-vocabulary segmentation. Our research offers a novel and generalized methodology for equipping vision foundation models like SAM with multi-grained semantic perception abilities.

arxiv情報

著者 Pengfei Chen,Lingxi Xie,Xinyue Huo,Xuehui Yu,Xiaopeng Zhang,Yingfei Sun,Zhenjun Han,Qi Tian
発行日 2024-07-23 17:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク