要約
弱教師セマンティック セグメンテーション (WSSS) は、画像レベルのアノテーションのみを使用することで、面倒なピクセル レベルのアノテーションの必要性を回避することを目的としています。
既存のメソッドのほとんどは、クラス アクティベーション マップ (CAM) に依存してピクセル レベルの疑似ラベルを導出し、それを使用して完全に監視されたセマンティック セグメンテーション モデルをトレーニングします。
これらの擬似ラベルはクラスを認識しており、特定のクラスの粗い領域を示していますが、オブジェクトを認識しておらず、正確なオブジェクト境界を描くことができません。
これに対処するために、オブジェクト、パーツ、およびサブパーツのきめ細かいインスタンス マスクを生成できるクラスに依存しない基礎モデルであるセグメント エニシング モデル (SAM) を利用する、シンプルかつ効果的な方法を紹介します。
SAM マスクを選択して結合するための手がかりとして CAM 擬似ラベルを使用し、その結果、クラス認識とオブジェクト認識の両方を備えた高品質の擬似ラベルが得られます。
私たちのアプローチは汎用性が高く、変更を加えることなく既存の WSSS メソッドに簡単に統合できます。
そのシンプルさにも関わらず、私たちのアプローチは、PASCAL VOC データセットと MS-COCO データセットの両方で、最先端の WSSS 手法を上回る一貫した利益を示しています。
要約(オリジナル)
Weakly supervised semantic segmentation (WSSS) aims to bypass the need for laborious pixel-level annotation by using only image-level annotation. Most existing methods rely on Class Activation Maps (CAM) to derive pixel-level pseudo-labels and use them to train a fully supervised semantic segmentation model. Although these pseudo-labels are class-aware, indicating the coarse regions for particular classes, they are not object-aware and fail to delineate accurate object boundaries. To address this, we introduce a simple yet effective method harnessing the Segment Anything Model (SAM), a class-agnostic foundation model capable of producing fine-grained instance masks of objects, parts, and subparts. We use CAM pseudo-labels as cues to select and combine SAM masks, resulting in high-quality pseudo-labels that are both class-aware and object-aware. Our approach is highly versatile and can be easily integrated into existing WSSS methods without any modification. Despite its simplicity, our approach shows consistent gain over the state-of-the-art WSSS methods on both PASCAL VOC and MS-COCO datasets.
arxiv情報
著者 | Tianle Chen,Zheda Mai,Ruiwen Li,Wei-lun Chao |
発行日 | 2023-10-10 17:13:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google