ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation

要約

最近、CLIP や SAM などの基本モデルは、ゼロショット異常セグメンテーション (ZSAS) のタスクに対して有望なパフォーマンスを示しています。
ただし、CLIP ベースまたは SAM ベースの ZSAS 手法には依然として無視できない重要な欠点があります。1) CLIP は主に、異なる入力にわたるグローバルな特徴の位置合わせに焦点を当てているため、局所的な異常部分の不正確なセグメンテーションが発生します。
2) SAM は、適切なプロンプト制約がないと多数の冗長マスクを生成する傾向があり、その結果、複雑な後処理要件が発生します。
この研究では、ClipSAM for ZSAS と呼ばれる CLIP と SAM のコラボレーション フレームワークを革新的に提案します。
ClipSAM の背後にある洞察は、異常の位置特定と大まかなセグメンテーションに CLIP のセマンティック理解機能を採用することです。この機能は、異常セグメンテーションの結果を改良するための SAM のプロンプト制約としてさらに使用されます。
詳細には、CLIP の複数のスケールで言語と視覚的特徴を対話させて異常な位置を推論するための重要な統合マルチスケール クロスモーダル インタラクション (UMCI) モジュールを紹介します。
次に、新しいマルチレベル マスク洗練 (MMR) モジュールを設計します。このモジュールは、位置情報を SAM のマルチレベル プロンプトとして利用して、マスクの階層レベルを取得し、それらをマージします。
広範な実験により、MVTec-AD および VisA データセットで最適なセグメンテーション パフォーマンスを実現するアプローチの有効性が検証されています。

要約(オリジナル)

Recently, foundational models such as CLIP and SAM have shown promising performance for the task of Zero-Shot Anomaly Segmentation (ZSAS). However, either CLIP-based or SAM-based ZSAS methods still suffer from non-negligible key drawbacks: 1) CLIP primarily focuses on global feature alignment across different inputs, leading to imprecise segmentation of local anomalous parts; 2) SAM tends to generate numerous redundant masks without proper prompt constraints, resulting in complex post-processing requirements. In this work, we innovatively propose a CLIP and SAM collaboration framework called ClipSAM for ZSAS. The insight behind ClipSAM is to employ CLIP’s semantic understanding capability for anomaly localization and rough segmentation, which is further used as the prompt constraints for SAM to refine the anomaly segmentation results. In details, we introduce a crucial Unified Multi-scale Cross-modal Interaction (UMCI) module for interacting language with visual features at multiple scales of CLIP to reason anomaly positions. Then, we design a novel Multi-level Mask Refinement (MMR) module, which utilizes the positional information as multi-level prompts for SAM to acquire hierarchical levels of masks and merges them. Extensive experiments validate the effectiveness of our approach, achieving the optimal segmentation performance on the MVTec-AD and VisA datasets.

arxiv情報

著者 Shengze Li,Jianjian Cao,Peng Ye,Yuhan Ding,Chongjun Tu,Tao Chen
発行日 2024-01-29 10:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク