Attend, Distill, Detect: Attention-aware Entropy Distillation for Anomaly Detection

要約

監視なし異常検出には、高スループットと精度が不可欠な産業環境におけるさまざまなアプリケーションが含まれます。
初期の作品は 1 クラス 1 モデルのパラダイムを中心にしていましたが、これは大規模な運用環境では重大な課題を引き起こします。
知識の蒸留に基づいたマルチクラスの異常検出は、かなり優れたパフォーマンスを備えた低遅延を約束しますが、1 クラスのバージョンと比較すると大幅な低下が見られます。
複数のクラスまたはオブジェクト間で大きな差異がある場合に、教師と生徒のネットワーク間の蒸留プロセスを改善する DCAM (分散畳み込み注意モジュール) を提案します。
統合されたマルチスケール特徴マッチング戦略により、2 つのネットワークの特徴ピラミッドからのマルチレベルの知識の混合を利用し、マルチクラス シナリオの固有の問題でもあるさまざまなサイズの異常の検出を直感的に支援します。
簡単に言うと、私たちの DCAM モジュールは、学生ネットワークの特徴マップ全体に分散された畳み込み注意ブロックで構成されており、基本的に学生の学習中に無関係な情報をマスクすることを学習して、「クラス間干渉」問題を軽減します。
このプロセスには、空間次元の KL ダイバージェンスと、教師と生徒の同じ特徴マップ間のチャネルごとのコサイン類似度を使用して、相対エントロピーを最小化することが伴います。
損失により、スケール不変性を達成し、非線形関係を捉えることが可能になります。
また、異常スコアリングには学習された特徴マップと損失のみが必要なため、DCAM モジュールはトレーニング中にのみ使用され、推論中には使用されないことも強調します。そのため、遅延を維持したままマルチクラス ベースラインよりも 3.92% のパフォーマンス向上が得られます。

要約(オリジナル)

Unsupervised anomaly detection encompasses diverse applications in industrial settings where a high-throughput and precision is imperative. Early works were centered around one-class-one-model paradigm, which poses significant challenges in large-scale production environments. Knowledge-distillation based multi-class anomaly detection promises a low latency with a reasonably good performance but with a significant drop as compared to one-class version. We propose a DCAM (Distributed Convolutional Attention Module) which improves the distillation process between teacher and student networks when there is a high variance among multiple classes or objects. Integrated multi-scale feature matching strategy to utilise a mixture of multi-level knowledge from the feature pyramid of the two networks, intuitively helping in detecting anomalies of varying sizes which is also an inherent problem in the multi-class scenario. Briefly, our DCAM module consists of Convolutional Attention blocks distributed across the feature maps of the student network, which essentially learns to masks the irrelevant information during student learning alleviating the ‘cross-class interference’ problem. This process is accompanied by minimizing the relative entropy using KL-Divergence in Spatial dimension and a Channel-wise Cosine Similarity between the same feature maps of teacher and student. The losses enables to achieve scale-invariance and capture non-linear relationships. We also highlight that the DCAM module would only be used during training and not during inference as we only need the learned feature maps and losses for anomaly scoring and hence, gaining a performance gain of 3.92% than the multi-class baseline with a preserved latency.

arxiv情報

著者 Sushovan Jena,Vishwas Saini,Ujjwal Shaw,Pavitra Jain,Abhay Singh Raihal,Anoushka Banerjee,Sharad Joshi,Ananth Ganesh,Arnav Bhavsar
発行日 2024-05-10 13:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, I.2.10 パーマリンク