要約
最近の研究では、マルチクラス イメージの統合モデルを構築する教師なし異常検出 (UAD) の実際的な設定に焦点を当てています。
この困難な課題に対処するためのさまざまな進歩にもかかわらず、マルチクラス設定での検出パフォーマンスは、依然として最先端のクラス分離モデルに比べてはるかに遅れています。
私たちの研究は、この大きなパフォーマンスギャップを埋めることを目的としています。
このペーパーでは、複雑な設計、追加モジュール、または特殊なトリックに依存せずに純粋な Transformer アーキテクチャを活用する、最小限の再構築ベースの異常検出フレームワーク、つまり Dinomaly を紹介します。
この強力なフレームワークがアテンションと MLP のみで構成されていることを考慮すると、マルチクラスの異常検出に不可欠な 4 つのシンプルなコンポーネントが見つかりました: (1) 普遍的で識別的な特徴を抽出する Foundation Transformers、(2) 既存の Dropout がすべてを行う Noisy Bottleneck
ノイズ注入トリック、(3) 自然に集中できない線形注意、(4) レイヤー間およびポイントごとの再構成を強制しない緩い再構成。
MVTec-AD、VisA、Real-IAD などの一般的な異常検出ベンチマークにわたって広範な実験が実施されています。
私たちが提案する Dinomaly は、3 つのデータセットでそれぞれ 99.6%、98.7%、89.3% という優れた画像レベルの AUROC を達成します。これは、最先端のマルチクラス UAD 手法よりも優れているだけでなく、最も先進的な結果も達成します。
クラス分離された UAD レコード。
要約(オリジナル)
Recent studies highlighted a practical setting of unsupervised anomaly detection (UAD) that builds a unified model for multi-class images. Despite various advancements addressing this challenging task, the detection performance under the multi-class setting still lags far behind state-of-the-art class-separated models. Our research aims to bridge this substantial performance gap. In this paper, we introduce a minimalistic reconstruction-based anomaly detection framework, namely Dinomaly, which leverages pure Transformer architectures without relying on complex designs, additional modules, or specialized tricks. Given this powerful framework consisted of only Attentions and MLPs, we found four simple components that are essential to multi-class anomaly detection: (1) Foundation Transformers that extracts universal and discriminative features, (2) Noisy Bottleneck where pre-existing Dropouts do all the noise injection tricks, (3) Linear Attention that naturally cannot focus, and (4) Loose Reconstruction that does not force layer-to-layer and point-by-point reconstruction. Extensive experiments are conducted across popular anomaly detection benchmarks including MVTec-AD, VisA, and Real-IAD. Our proposed Dinomaly achieves impressive image-level AUROC of 99.6%, 98.7%, and 89.3% on the three datasets respectively, which is not only superior to state-of-the-art multi-class UAD methods, but also achieves the most advanced class-separated UAD records.
arxiv情報
著者 | Jia Guo,Shuai Lu,Weihang Zhang,Fang Chen,Hongen Liao,Huiqi Li |
発行日 | 2024-11-14 15:47:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google