DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection

要約

再構築ベースのアプローチは、異常検出において顕著な成果を上げています。
最近普及した拡散モデルの優れた画像再構成機能は、異常な画像の再構成を強化するためにそれらを利用する研究努力を引き起こしています。
それにもかかわらず、これらの方法は、より実用的なマルチクラス設定における画像カテゴリとピクセル単位の構造的完全性の保持に関連する課題に直面する可能性があります。
上記の問題を解決するために、マルチクラス異常検出のための Difusion-based Anomaly Detection (DiAD) フレームワークを提案します。これは、ピクセル空間オートエンコーダー、潜在空間セマンティック ガイド (SG) ネットワークと、
安定した拡散のノイズ除去ネットワーク、および特徴空間の事前トレーニングされた特徴抽出器。
まず、元の画像の意味情報を保存しながら異常領域を再構成するための SG ネットワークを提案します。
次に、広範囲に再構築された領域を処理する場合に再構築の精度を最大化するために、空間認識機能融合 (SFF) ブロックを導入します。
3 番目に、入力画像と再構成画像は事前トレーニングされた特徴抽出器によって処理され、さまざまなスケールで抽出された特徴に基づいて異常マップが生成されます。
MVTec-AD および VisA データセットの実験は、最先端の方法を超えるアプローチの有効性を実証しています。たとえば、マルチクラスでの位置特定と検出でそれぞれ 96.8/52.6 および 97.2/99.0 (AUROC/AP) を達成しています。
MVTec-AD データセット。
コードは https://lewandofskee.github.io/projects/diad で入手できます。

要約(オリジナル)

Reconstruction-based approaches have achieved remarkable outcomes in anomaly detection. The exceptional image reconstruction capabilities of recently popular diffusion models have sparked research efforts to utilize them for enhanced reconstruction of anomalous images. Nonetheless, these methods might face challenges related to the preservation of image categories and pixel-wise structural integrity in the more practical multi-class setting. To solve the above problems, we propose a Difusion-based Anomaly Detection (DiAD) framework for multi-class anomaly detection, which consists of a pixel-space autoencoder, a latent-space Semantic-Guided (SG) network with a connection to the stable diffusion’s denoising network, and a feature-space pre-trained feature extractor. Firstly, The SG network is proposed for reconstructing anomalous regions while preserving the original image’s semantic information. Secondly, we introduce Spatial-aware Feature Fusion (SFF) block to maximize reconstruction accuracy when dealing with extensively reconstructed areas. Thirdly, the input and reconstructed images are processed by a pre-trained feature extractor to generate anomaly maps based on features extracted at different scales. Experiments on MVTec-AD and VisA datasets demonstrate the effectiveness of our approach which surpasses the state-of-the-art methods, e.g., achieving 96.8/52.6 and 97.2/99.0 (AUROC/AP) for localization and detection respectively on multi-class MVTec-AD dataset. Code will be available at https://lewandofskee.github.io/projects/diad.

arxiv情報

著者 Haoyang He,Jiangning Zhang,Hongxu Chen,Xuhai Chen,Zhishan Li,Xu Chen,Yabiao Wang,Chengjie Wang,Lei Xie
発行日 2023-12-11 18:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク