要約
この研究の目的は、対照言語画像事前トレーニング (CLIP) やセグメント何でもモデル (SAM) などの事前トレーニング済みの基礎モデルを活用し、画像レベルのラベルを使用した弱教師セマンティック セグメンテーション (WSSS) に対処することです。
この目的を達成するために、高品質のセグメンテーション シードを生成するための CLIP と SAM に基づく粗いから細かいまでのフレームワークを提案します。
具体的には、画像分類タスクとシード セグメンテーション タスクを構築します。これらは、固定された重みと 2 セットの学習可能なタスク固有のプロンプトを使用して CLIP によって共同で実行されます。
SAM ベースのシード (SAMS) モジュールが設計され、各タスクに適用されて、粗いシード マップまたは細かいシード マップが生成されます。
さらに、画像レベルのラベルによって監視されるマルチラベルのコントラスト損失と、生成された粗いシードマップによって監視されるCAM活性化損失を設計します。
これらの損失は、プロンプトを学習するために使用されます。プロンプトは、フレームワークで学習する必要がある唯一の部分です。
プロンプトを学習したら、学習したセグメンテーション固有のプロンプトとともに各画像を CLIP および SAMS モジュールに入力して、高品質のセグメンテーション シードを生成します。
これらのシードは、他の 2 段階 WSSS メソッドと同様に、既製のセグメンテーション ネットワークをトレーニングするための擬似ラベルとして機能します。
実験により、私たちの方法が PASCAL VOC 2012 で最先端のパフォーマンスを達成し、MS COCO 2014 で競合する結果が得られることが示されています。
要約(オリジナル)
This work aims to leverage pre-trained foundation models, such as contrastive language-image pre-training (CLIP) and segment anything model (SAM), to address weakly supervised semantic segmentation (WSSS) using image-level labels. To this end, we propose a coarse-to-fine framework based on CLIP and SAM for generating high-quality segmentation seeds. Specifically, we construct an image classification task and a seed segmentation task, which are jointly performed by CLIP with frozen weights and two sets of learnable task-specific prompts. A SAM-based seeding (SAMS) module is designed and applied to each task to produce either coarse or fine seed maps. Moreover, we design a multi-label contrastive loss supervised by image-level labels and a CAM activation loss supervised by the generated coarse seed map. These losses are used to learn the prompts, which are the only parts need to be learned in our framework. Once the prompts are learned, we input each image along with the learned segmentation-specific prompts into CLIP and the SAMS module to produce high-quality segmentation seeds. These seeds serve as pseudo labels to train an off-the-shelf segmentation network like other two-stage WSSS methods. Experiments show that our method achieves the state-of-the-art performance on PASCAL VOC 2012 and competitive results on MS COCO 2014.
arxiv情報
著者 | Xiaobo Yang,Xiaojin Gong |
発行日 | 2023-12-06 16:21:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google