Semantic-aware SAM for Point-Prompted Instance Segmentation

要約

ラベル付けのコストを最小限に抑えることを目的とした、視覚的なタスクにおける単一ポイントのアノテーションが研究においてますます注目されるようになってきています。
最近では、Segment Anything (SAM) などのビジュアル基盤モデルが、その堅牢なゼロショット機能と優れた注釈パフォーマンスにより広く使用されるようになりました。
ただし、SAM のクラスに依存しない出力とローカル セグメンテーションにおける高い信頼性により、「意味論的な曖昧さ」が生じ、正確なカテゴリ固有のセグメンテーションが困難になります。
このペーパーでは、SAM を使用したコスト効率の高いカテゴリ固有のセグメンターを紹介します。
この課題に取り組むために、私たちは、照合機能を備えた複数インスタンス学習 (MIL) とポイント プロンプトを備えた SAM を統合する、セマンティック対応インスタンス セグメンテーション ネットワーク (SAPNet) を考案しました。
SAPNet は、SAM によって生成された最も代表的なマスク提案を戦略的に選択し、オブジェクト カテゴリ情報に特に重点を置いてセグメンテーションを監視します。
さらに、ポイント ディスタンス ガイダンスとボックス マイニング戦略を導入して、固有の課題、つまり監視の弱いセグメンテーションにおける「グループ」と「ローカル」の問題を軽減します。
これらの戦略は、全体的なセグメンテーションのパフォーマンスをさらに向上させるのに役立ちます。
Pascal VOC および COCO に関する実験結果は、私たちが提案する SAPNet の有望なパフォーマンスを実証し、そのセマンティック マッチング機能とポイントプロンプトのインスタンス セグメンテーションを進歩させる可能性を強調しています。
コードは公開されます。

要約(オリジナル)

Single-point annotation in visual tasks, with the goal of minimizing labelling costs, is becoming increasingly prominent in research. Recently, visual foundation models, such as Segment Anything (SAM), have gained widespread usage due to their robust zero-shot capabilities and exceptional annotation performance. However, SAM’s class-agnostic output and high confidence in local segmentation introduce ‘semantic ambiguity’, posing a challenge for precise category-specific segmentation. In this paper, we introduce a cost-effective category-specific segmenter using SAM. To tackle this challenge, we have devised a Semantic-Aware Instance Segmentation Network (SAPNet) that integrates Multiple Instance Learning (MIL) with matching capability and SAM with point prompts. SAPNet strategically selects the most representative mask proposals generated by SAM to supervise segmentation, with a specific focus on object category information. Moreover, we introduce the Point Distance Guidance and Box Mining Strategy to mitigate inherent challenges: ‘group’ and ‘local’ issues in weakly supervised segmentation. These strategies serve to further enhance the overall segmentation performance. The experimental results on Pascal VOC and COCO demonstrate the promising performance of our proposed SAPNet, emphasizing its semantic matching capabilities and its potential to advance point-prompted instance segmentation. The code will be made publicly available.

arxiv情報

著者 Zhaoyang Wei,Pengfei Chen,Xuehui Yu,Guorong Li,Jianbin Jiao,Zhenjun Han
発行日 2023-12-26 05:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク