要約
機械学習の分野では、画像データ内の異常検出と位置特定に関する研究が、特に産業上の欠陥検出などの実用的なアプリケーションで大きな注目を集めています。
既存のアプローチは、バックボーン ネットワークとして畳み込みニューラル ネットワーク (CNN) に主に依存していますが、Transformer バックボーン ネットワークに基づく革新的な方法を提案します。
私たちのアプローチは、2 段階の増分学習戦略を採用しています。
最初の段階では、Masked Autoencoder (MAE) モデルを通常の画像だけでトレーニングします。
続いて、第 2 段階では、ピクセル レベルのデータ拡張技術を実装して、破損した通常の画像とそれに対応するピクセル ラベルを生成します。
このプロセスにより、モデルは破損した領域を修復し、各ピクセルの状態を分類する方法を学習できます。
最終的に、モデルはピクセル再構成エラー マトリックスとピクセル異常確率マトリックスを生成し、これらを組み合わせて、異常領域を効果的に識別する異常スコアリング マトリックスを作成します。
いくつかの最先端の CNN ベースの手法と比較すると、当社の方法は MVTec AD データセットで優れたパフォーマンスを発揮し、97.6% という印象的な AUC を達成しています。
要約(オリジナル)
In the machine learning domain, research on anomaly detection and localization within image data has garnered significant attention, particularly in practical applications such as industrial defect detection. While existing approaches predominantly rely on Convolutional Neural Networks (CNN) as their backbone network, we propose an innovative method based on the Transformer backbone network. Our approach employs a two-stage incremental learning strategy. In the first stage, we train a Masked Autoencoder (MAE) model exclusively on normal images. Subsequently, in the second stage, we implement pixel-level data augmentation techniques to generate corrupted normal images and their corresponding pixel labels. This process enables the model to learn how to repair corrupted regions and classify the state of each pixel. Ultimately, the model produces a pixel reconstruction error matrix and a pixel anomaly probability matrix, which are combined to create an anomaly scoring matrix that effectively identifies abnormal regions. When compared to several state-of-the-art CNN-based techniques, our method demonstrates superior performance on the MVTec AD dataset, achieving an impressive 97.6% AUC.
arxiv情報
著者 | Wenping Jin,Fei Guo,Li Zhu |
発行日 | 2023-03-30 13:11:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google