Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection

要約

この研究では、最近提案された挑戦的で実用的なマルチクラス教師なし異常検出 (MUAD) タスクを研究します。このタスクでは、トレーニングに通常の画像のみが必要であり、同時に複数のクラスの正常/異常画像の両方をテストします。
既存の再構成ベースの手法は、通常、多重解像度の特徴を取得するエンコーダ/デコーダとしてピラミッド ネットワークを採用し、より正確な位置特定のためのより重い手作りエンジニアリング設計を備えた精巧なサブモジュールを伴います。
対照的に、シンプルなアーキテクチャを備えたプレーンなビジョン トランスフォーマー (ViT) は、複数のドメインで効果的であることが証明されており、よりシンプルで効果的、エレガントです。
この精神に従い、この文書では MUAD のプレーンな ViT アーキテクチャを検討します。
具体的には、現在の再構成ベースの手法を導入することにより、Meta-AD の概念を抽象化します。
次に、3 つのマクロ視点と 4 つのミクロ視点から段階的に効果的に設計された、斬新でエレガントなプレーン ViT ベースの対称 ViTAD 構造をインスタンス化します。
さらに、この論文では、さらなる調査のためのいくつかの興味深い発見が明らかになりました。
最後に、MUAD タスクの 8 つの指標に関する包括的かつ公正な評価ベンチマークを提案します。
単純なトレーニング レシピに基づいて、ViTAD は MVTec AD および VisA データセットで付加機能なしで最先端 (SoTA) の結果と効率を達成し、SoTA UniAD を +3.0 上回る 85.4 mAD を取得し、所要時間はわずか 1.1 時間です。
および 2.3G GPU メモリにより、単一の V100 GPU でモデル トレーニングを完了できます。
ソース コード、モデル、その他の結果は、https://zhangzjn.github.io/projects/ViTAD で入手できます。

要約(オリジナル)

This work studies the recently proposed challenging and practical Multi-class Unsupervised Anomaly Detection (MUAD) task, which only requires normal images for training while simultaneously testing both normal/anomaly images for multiple classes. Existing reconstruction-based methods typically adopt pyramid networks as encoders/decoders to obtain multi-resolution features, accompanied by elaborate sub-modules with heavier handcraft engineering designs for more precise localization. In contrast, a plain Vision Transformer (ViT) with simple architecture has been shown effective in multiple domains, which is simpler, more effective, and elegant. Following this spirit, this paper explores plain ViT architecture for MUAD. Specifically, we abstract a Meta-AD concept by inducing current reconstruction-based methods. Then, we instantiate a novel and elegant plain ViT-based symmetric ViTAD structure, effectively designed step by step from three macro and four micro perspectives. In addition, this paper reveals several interesting findings for further exploration. Finally, we propose a comprehensive and fair evaluation benchmark on eight metrics for the MUAD task. Based on a naive training recipe, ViTAD achieves state-of-the-art (SoTA) results and efficiency on the MVTec AD and VisA datasets without bells and whistles, obtaining 85.4 mAD that surpasses SoTA UniAD by +3.0, and only requiring 1.1 hours and 2.3G GPU memory to complete model training by a single V100 GPU. Source code, models, and more results are available at https://zhangzjn.github.io/projects/ViTAD.

arxiv情報

著者 Jiangning Zhang,Xuhai Chen,Yabiao Wang,Chengjie Wang,Yong Liu,Xiangtai Li,Ming-Hsuan Yang,Dacheng Tao
発行日 2023-12-12 18:28:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク