Teacher Encoder-Student Decoder Denoising Guided Segmentation Network for Anomaly Detection

要約

視覚的異常の検出は非常に困難なタスクであり、多くの場合、1 クラスの分類およびセグメンテーションの問題として分類されます。
最近の研究では、学生と教師 (S-T) の枠組みがこの課題に効果的に対処できることが実証されています。
しかし、ほとんどの S-T フレームワークは、事前トレーニングされた教師ネットワークのみに依存して、マルチスケールの同様の特徴を学習する際に生徒のネットワークをガイドしており、マルチスケールの特徴の融合を通じて学習を強化する生徒のネットワークの可能性を見落としています。
この研究では、事前トレーニングされた教師ネットワーク、マルチスケール特徴融合によるノイズ除去生徒ネットワーク、およびガイド付き異常セグメンテーション ネットワークを統合フレームワークに統合する、PFADSeg という新しいモデルを提案します。
独自の教師エンコーダーと生徒デコーダーのノイズ除去モードを採用することで、このモデルは教師ネットワークの機能から学習する生徒ネットワークの能力を向上させます。
さらに、適応型特徴融合メカニズムが導入され、異常マスクを自律的に合成する自己監視型セグメンテーション ネットワークをトレーニングし、検出パフォーマンスを大幅に向上させます。
MVTec AD データセットで評価した PFADSeg は、画像レベルの AUC が 98.9%、ピクセルレベルの平均精度が 76.4%、インスタンスレベルの平均精度が 78.7% という最先端の結果を達成しました。

要約(オリジナル)

Visual anomaly detection is a highly challenging task, often categorized as a one-class classification and segmentation problem. Recent studies have demonstrated that the student-teacher (S-T) framework effectively addresses this challenge. However, most S-T frameworks rely solely on pre-trained teacher networks to guide student networks in learning multi-scale similar features, overlooking the potential of the student networks to enhance learning through multi-scale feature fusion. In this study, we propose a novel model named PFADSeg, which integrates a pre-trained teacher network, a denoising student network with multi-scale feature fusion, and a guided anomaly segmentation network into a unified framework. By adopting a unique teacher-encoder and student-decoder denoising mode, the model improves the student network’s ability to learn from teacher network features. Furthermore, an adaptive feature fusion mechanism is introduced to train a self-supervised segmentation network that synthesizes anomaly masks autonomously, significantly increasing detection performance. Evaluated on the MVTec AD dataset, PFADSeg achieves state-of-the-art results with an image-level AUC of 98.9%, a pixel-level mean precision of 76.4%, and an instance-level mean precision of 78.7%.

arxiv情報

著者 ShiXuan Song,Hao Chen,Shu Hu,Xin Wang,Jinrong Hu,Xi Wu
発行日 2025-01-21 12:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク