Generalizable Industrial Visual Anomaly Detection with Self-Induction Vision Transformer

要約

産業用ビジョンの異常検出は、高度なインテリジェント製造プロセスで重要な役割を果たしますが、そのような状況下では、いくつかの制限に対処する必要があります。
第一に、既存の再構成ベースの方法は、再構成エラーのギャップが正常なサンプルと異常なサンプルの間で判読可能であり、検出能力が低下する、些細なショートカットの同一性マッピングに苦労しています。
次に、以前の研究は主に、オブジェクトのローカル セマンティクスをキャプチャし、グローバル コンテキストを無視する畳み込みニューラル ネットワーク (CNN) モデルに集中していたため、パフォーマンスも劣っていました。
さらに、既存の研究は、検出モデルが製品の 1 つのカテゴリのみを処理できる個別の学習方式に従いますが、複数のカテゴリの一般化可能な検出は調査されていません。
上記の制限に取り組むために、教師なしで一般化可能なマルチカテゴリの産業用視覚異常の検出とローカリゼーションのための自己誘導ビジョン トランスフォーマー (SIVT) を提案しました。
提案された SIVT は、最初に事前トレーニング済みの CNN から識別機能をプロパティ記述子として抽出します。
次に、自己誘導ビジョントランスフォーマーが提案され、抽出された特徴を自己監視方式で再構築します。ここで、元の信号のセマンティクスを誘導するために補助誘導トークンが追加で導入されます。
最後に、セマンティック特徴残差を使用して異常なプロパティを検出できます。
既存の Mvtec AD ベンチマークで SIVT を実験した結果、提案された方法が最先端の検出性能を向上させ、AUROC で 2.8 ~ 6.3、AP で 3.3 ~ 7.6 改善できることが明らかになりました。

要約(オリジナル)

Industrial vision anomaly detection plays a critical role in the advanced intelligent manufacturing process, while some limitations still need to be addressed under such a context. First, existing reconstruction-based methods struggle with the identity mapping of trivial shortcuts where the reconstruction error gap is legible between the normal and abnormal samples, leading to inferior detection capabilities. Then, the previous studies mainly concentrated on the convolutional neural network (CNN) models that capture the local semantics of objects and neglect the global context, also resulting in inferior performance. Moreover, existing studies follow the individual learning fashion where the detection models are only capable of one category of the product while the generalizable detection for multiple categories has not been explored. To tackle the above limitations, we proposed a self-induction vision Transformer(SIVT) for unsupervised generalizable multi-category industrial visual anomaly detection and localization. The proposed SIVT first extracts discriminatory features from pre-trained CNN as property descriptors. Then, the self-induction vision Transformer is proposed to reconstruct the extracted features in a self-supervisory fashion, where the auxiliary induction tokens are additionally introduced to induct the semantics of the original signal. Finally, the abnormal properties can be detected using the semantic feature residual difference. We experimented with the SIVT on existing Mvtec AD benchmarks, the results reveal that the proposed method can advance state-of-the-art detection performance with an improvement of 2.8-6.3 in AUROC, and 3.3-7.6 in AP.

arxiv情報

著者 Haiming Yao,Xue Wang
発行日 2022-11-22 14:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク