Self-Supervised Masked Convolutional Transformer Block for Anomaly Detection


異常検出は、最近コンピュータ ビジョンの分野でますます注目を集めています。これはおそらく、工業生産ラインでの製品の欠陥検出やビデオ監視での差し迫ったイベントの検出から医療スキャンでの病変の発見に至るまで、その応用範囲が広いためと考えられます。
ドメインに関係なく、異常検出は通常 1 クラスの分類タスクとして構成され、学習は正常な例のみに対して行われます。
成功した異常検出方法のファミリー全体は、マスクされた正常入力 (パッチ、将来のフレームなど) を再構築する方法を学習し、再構築誤差の大きさを異常レベルの指標として利用することに基づいています。
他の再構築ベースの方法とは異なり、コア アーキテクチャ レベルで再構築ベースの機能を構成する新しい自己教師ありマスク畳み込み変換ブロック (SSMCTB) を提案します。
提案された自己教師ありブロックは非常に柔軟で、ニューラル ネットワークの任意の層で情報マスキングが可能であり、幅広いニューラル アーキテクチャと互換性があります。
この研究では、以前の自己教師あり予測畳み込み注意ブロック (SSPCAB) を、3D マスクされた畳み込み層、チャネルごとの注意のための変換器、およびフーバー損失に基づく新しい自己教師あり目標で拡張しました。
さらに、私たちのブロックは、RGB 画像と監視ビデオに基づいて以前に検討されていたタスクに、医療画像と熱ビデオの異常検出を追加して、より幅広いタスクに適用できることを示します。
SSMCTB を異常検出用の複数の最先端ニューラル モデルに統合することで、SSMCTB の汎用性と柔軟性を示し、5 つのベンチマークで大幅なパフォーマンスの向上を確認する経験的結果を導き出しました。
コードとデータは でオープンソースとしてリリースされます。


Anomaly detection has recently gained increasing attention in the field of computer vision, likely due to its broad set of applications ranging from product fault detection on industrial production lines and impending event detection in video surveillance to finding lesions in medical scans. Regardless of the domain, anomaly detection is typically framed as a one-class classification task, where the learning is conducted on normal examples only. An entire family of successful anomaly detection methods is based on learning to reconstruct masked normal inputs (e.g. patches, future frames, etc.) and exerting the magnitude of the reconstruction error as an indicator for the abnormality level. Unlike other reconstruction-based methods, we present a novel self-supervised masked convolutional transformer block (SSMCTB) that comprises the reconstruction-based functionality at a core architectural level. The proposed self-supervised block is extremely flexible, enabling information masking at any layer of a neural network and being compatible with a wide range of neural architectures. In this work, we extend our previous self-supervised predictive convolutional attentive block (SSPCAB) with a 3D masked convolutional layer, a transformer for channel-wise attention, as well as a novel self-supervised objective based on Huber loss. Furthermore, we show that our block is applicable to a wider variety of tasks, adding anomaly detection in medical images and thermal videos to the previously considered tasks based on RGB images and surveillance videos. We exhibit the generality and flexibility of SSMCTB by integrating it into multiple state-of-the-art neural models for anomaly detection, bringing forth empirical results that confirm considerable performance improvements on five benchmarks. We release our code and data as open source at:


Neelu Madan,Nicolae-Catalin Ristea,Radu Tudor Ionescu,Kamal Nasrollahi,Fahad Shahbaz Khan,Thomas B. Moeslund,Mubarak Shah
2023-10-05
