Siamese Transition Masked Autoencoders as Uniform Unsupervised Visual Anomaly Detector

要約

教師なし視覚的異常検出は、多くのシナリオで実際的な重要性を伝えますが、異常の定義が無制限であるため、困難なタスクです。
さらに、以前の方法のほとんどはアプリケーション固有のものであり、アプリケーション シナリオ全体で異常の統一モデルを確立することは未解決のままです。
この論文では、シャム遷移マスク オートエンコーダ (ST-MAE) と呼ばれる新しいハイブリッド フレームワークを提案し、深い特徴遷移を介してさまざまな視覚的異常検出タスクを一様に処理します。
具体的には、提案された方法は、最初に事前トレーニング済みの深い畳み込みニューラル ネットワークから階層的セマンティクスの特徴を抽出し、次に特徴分離戦略を開発して、深い特徴を 2 つのばらばらな特徴パッチ サブセットに分割します。
分離された機能を活用して、ST-MAE は、特徴パッチの各サブセットで動作し、2 つのサブセットの潜在表現遷移を実行するシャム エンコーダーと、遷移された潜在表現から元の特徴を再構築する軽量デコーダーを使用して開発されています。
最後に、セマンティック ディープ フィーチャ残差を使用して、異常な属性を検出できます。
私たちの深い機能遷移スキームは、プロトタイプの正常なパターンを抽出するための自明ではないセマンティックな自己監視タスクを生み出します。これにより、さまざまな視覚的異常検出タスクに対して適切に一般化する均一なモデルを学習できます。
実施された広範な実験は、提案された ST-MAE メソッドがアプリケーション シナリオ全体の複数のベンチマークで最先端のパフォーマンスを向上させ、優れた推論効率を実現できることを示しています。これは、教師なし視覚異常検出の統一モデルになる大きな可能性を示しています。

要約(オリジナル)

Unsupervised visual anomaly detection conveys practical significance in many scenarios and is a challenging task due to the unbounded definition of anomalies. Moreover, most previous methods are application-specific, and establishing a unified model for anomalies across application scenarios remains unsolved. This paper proposes a novel hybrid framework termed Siamese Transition Masked Autoencoders(ST-MAE) to handle various visual anomaly detection tasks uniformly via deep feature transition. Concretely, the proposed method first extracts hierarchical semantics features from a pre-trained deep convolutional neural network and then develops a feature decoupling strategy to split the deep features into two disjoint feature patch subsets. Leveraging the decoupled features, the ST-MAE is developed with the Siamese encoders that operate on each subset of feature patches and perform the latent representations transition of two subsets, along with a lightweight decoder that reconstructs the original feature from the transitioned latent representation. Finally, the anomalous attributes can be detected using the semantic deep feature residual. Our deep feature transition scheme yields a nontrivial and semantic self-supervisory task to extract prototypical normal patterns, which allows for learning uniform models that generalize well for different visual anomaly detection tasks. The extensive experiments conducted demonstrate that the proposed ST-MAE method can advance state-of-the-art performance on multiple benchmarks across application scenarios with a superior inference efficiency, which exhibits great potential to be the uniform model for unsupervised visual anomaly detection.

arxiv情報

著者 Haiming Yao,Xue Wang,Wenyong Yu
発行日 2022-11-01 09:45:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク