Visual Anomaly Detection via Dual-Attention Transformer and Discriminative Flow

要約

タイトル: デュアルアテンショントランスフォーマーと区別的フローを使用した視覚異常検知

要約:
– 本論文では、視覚異常検知のための最新のデュアルアテンショントランスフォーマーと区別的フロー(DADF)フレームワークを紹介する。
– 正常な知識のみに基づく視覚異常検知は、産業シーンで広く適用され、注目を集めている。しかし、ほとんどの既存の方法は要件を満たせない。
– 提案されたDADFは新しいパラダイムを示し、まず事前トレーニングされたネットワークを活用して複数スケールの事前埋め込みを取得し、その後、デュアルアテンションメカニズム、すなわち自己アテンションと記憶アテンションを備えたビジョントランスフォーマーを開発し、主として、逐次および正常性の関連性で事前埋め込みの2段階の再構成を実現する。
– さらに、正規化フローを使用して、各スケールにおける事前埋め込みと再構成の共分布について識別的な尤度を確立することを提案する。
– DADFは、Mvtec ADで98.3 / 98.4の画像/pixel AUROCを達成し、Mvtec LOCO ADベンチマークで83.7の画像AUROCと67.4のピクセルsPROを達成し、提案手法の有効性を示している。

要約(オリジナル)

In this paper, we introduce the novel state-of-the-art Dual-attention Transformer and Discriminative Flow (DADF) framework for visual anomaly detection. Based on only normal knowledge, visual anomaly detection has wide applications in industrial scenarios and has attracted significant attention. However, most existing methods fail to meet the requirements. In contrast, the proposed DTDF presents a new paradigm: it firstly leverages a pre-trained network to acquire multi-scale prior embeddings, followed by the development of a vision Transformer with dual attention mechanisms, namely self-attention and memorial-attention, to achieve two-level reconstruction for prior embeddings with the sequential and normality association. Additionally, we propose using normalizing flow to establish discriminative likelihood for the joint distribution of prior and reconstructions at each scale. The DADF achieves 98.3/98.4 of image/pixel AUROC on Mvtec AD; 83.7 of image AUROC and 67.4 of pixel sPRO on Mvtec LOCO AD benchmarks, demonstrating the effectiveness of our proposed approach.

arxiv情報

著者 Haiming Yao,Wei Luo,Wenyong Yu
発行日 2023-03-31 08:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク