EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

要約

画像内の異常を検出することは、特にリアルタイムのコンピュータ ビジョン アプリケーションにおいて重要なタスクです。
この研究では、計算効率に焦点を当て、最新の GPU で 1 ミリ秒未満で画像を処理する軽量の特徴抽出器を提案します。
次に、生徒と教師のアプローチを使用して異常な特徴を検出します。
正常な、つまり異常のないトレーニング画像から抽出された特徴を予測するためにスチューデント ネットワークをトレーニングします。
テスト時に異常を検出できるのは、生徒が自分の特徴を予測できないことによって可能になります。
我々は、生徒が通常の画像を超えて教師の特徴抽出器を模倣することを妨げるトレーニング損失を提案します。
これにより、異常な特徴の検出を向上させながら、生徒と教師のモデルの計算コストを大幅に削減できます。
さらに、オブジェクトの間違った順序など、正常な局所特徴の無効な組み合わせを含む困難な論理異常の検出にも取り組みます。
画像をグローバルに分析するオートエンコーダーを効率的に組み込むことで、これらの異常を検出します。
私たちは、3 つの産業異常検出データセット コレクションからの 32 のデータセットに対して、EfficientAD と呼ばれるメソッドを評価しました。
EfficientAD は、異常の検出と位置特定の両方について新しい基準を設定します。
2 ミリ秒の遅延と 1 秒あたり 600 枚の画像のスループットにより、異常への迅速な対応が可能になります。
エラー率が低いため、実際のアプリケーションにとって経済的なソリューションとなり、将来の研究のための実りある基盤となります。

要約(オリジナル)

Detecting anomalies in images is an important task, especially in real-time computer vision applications. In this work, we focus on computational efficiency and propose a lightweight feature extractor that processes an image in less than a millisecond on a modern GPU. We then use a student-teacher approach to detect anomalous features. We train a student network to predict the extracted features of normal, i.e., anomaly-free training images. The detection of anomalies at test time is enabled by the student failing to predict their features. We propose a training loss that hinders the student from imitating the teacher feature extractor beyond the normal images. It allows us to drastically reduce the computational cost of the student-teacher model, while improving the detection of anomalous features. We furthermore address the detection of challenging logical anomalies that involve invalid combinations of normal local features, for example, a wrong ordering of objects. We detect these anomalies by efficiently incorporating an autoencoder that analyzes images globally. We evaluate our method, called EfficientAD, on 32 datasets from three industrial anomaly detection dataset collections. EfficientAD sets new standards for both the detection and the localization of anomalies. At a latency of two milliseconds and a throughput of six hundred images per second, it enables a fast handling of anomalies. Together with its low error rate, this makes it an economical solution for real-world applications and a fruitful basis for future research.

arxiv情報

著者 Kilian Batzner,Lars Heckler,Rebecca König
発行日 2024-02-08 18:38:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク