A SAM-guided Two-stream Lightweight Model for Anomaly Detection

要約

産業用異常検出では、モデルの効率性とモバイルフレンドリー性が現実のアプリケーションでの主な関心事になります。
同時に、Segment Anything (SAM) の優れた一般化機能は学術界の幅広い注目を集めており、目に見えない異常や現実世界の多様なパターンの位置を特定するための理想的な選択肢となっています。
このペーパーでは、これら 2 つの重要な要素を考慮して、教師なし異常検出 (STLM) のための SAM ガイド付き 2 ストリーム軽量モデルを提案します。このモデルは、2 つの実際のアプリケーション要件を満たすだけでなく、SAM の堅牢な一般化機能も活用します。
SAM の知識に基づいて、2 つの軽量画像エンコーダー、つまり 2 ストリーム軽量モジュールを採用しています。
具体的には、一方のストリームは正常領域と異常領域の両方で識別的および一般的な特徴表現を生成するようにトレーニングされ、もう一方のストリームは異常のない同じ画像を再構成します。これにより、異常領域に直面した場合の 2 つのストリーム表現の区別が効果的に強化されます。
さらに、共有マスク デコーダと特徴集約モジュールを使用して異常マップを生成します。
MVTec AD ベンチマークで実施した実験では、約 1,600 万のパラメーターを持ち、20 ミリ秒の推論時間を達成する STLM が、パフォーマンスの点で最先端の手法と効果的に競合し、ピクセル レベルの AUC で 98.26%、ピクセル レベルの AUC で 94.92% であることがわかりました。
プロ。
STLM の有効性と一般化可能性を実証するために、VisA や DAGM などのより困難なデータセットでさらに実験を行います。

要約(オリジナル)

In industrial anomaly detection, model efficiency and mobile-friendliness become the primary concerns in real-world applications. Simultaneously, the impressive generalization capabilities of Segment Anything (SAM) have garnered broad academic attention, making it an ideal choice for localizing unseen anomalies and diverse real-world patterns. In this paper, considering these two critical factors, we propose a SAM-guided Two-stream Lightweight Model for unsupervised anomaly detection (STLM) that not only aligns with the two practical application requirements but also harnesses the robust generalization capabilities of SAM. We employ two lightweight image encoders, i.e., our two-stream lightweight module, guided by SAM’s knowledge. To be specific, one stream is trained to generate discriminative and general feature representations in both normal and anomalous regions, while the other stream reconstructs the same images without anomalies, which effectively enhances the differentiation of two-stream representations when facing anomalous regions. Furthermore, we employ a shared mask decoder and a feature aggregation module to generate anomaly maps. Our experiments conducted on MVTec AD benchmark show that STLM, with about 16M parameters and achieving an inference time in 20ms, competes effectively with state-of-the-art methods in terms of performance, 98.26% on pixel-level AUC and 94.92% on PRO. We further experiment on more difficult datasets, e.g., VisA and DAGM, to demonstrate the effectiveness and generalizability of STLM.

arxiv情報

著者 Chenghao Li,Lei Qi,Xin Geng
発行日 2024-11-19 15:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク