要約
画像の異常検出は、データセット内のサンプルの大部分とは視覚的に異なる画像または画像部分を検出することで構成されます。
このタスクは、生物医学画像解析、工業生産における外観検査、銀行業務、交通管理など、さまざまな現実のアプリケーションにとって実際的に重要です。現在のディープラーニングのアプローチのほとんどは、画像の再構成に依存しています。入力画像は、いくつかの潜在的に投影されます。
ネットワーク (ほとんどは通常のデータでトレーニングされている) が異常な部分を再構築できないと仮定して、スペースを再構築します。
ただし、この仮定が常に成り立つわけではありません。
したがって、パッチ マスキングを使用した Vision Transformer アーキテクチャに基づく新しいモデルを提案します。入力画像はいくつかのパッチに分割され、各パッチは周囲のデータからのみ再構築されるため、パッチ自体に含まれる潜在的に異常な情報は無視されます。
次に、従来の正方形パッチのみを使用する場合と比較して、マルチ解像度パッチとそれらの集合的な埋め込みにより、モデルのパフォーマンスが大幅に向上することを示します。
提案されたモデルは、MVTec や頭部 CT などの一般的な異常検出データセットでテストされ、他の最先端のアプローチと比較して優れた結果を達成しました。
要約(オリジナル)
Image anomaly detection consists in detecting images or image portions that are visually different from the majority of the samples in a dataset. The task is of practical importance for various real-life applications like biomedical image analysis, visual inspection in industrial production, banking, traffic management, etc. Most of the current deep learning approaches rely on image reconstruction: the input image is projected in some latent space and then reconstructed, assuming that the network (mostly trained on normal data) will not be able to reconstruct the anomalous portions. However, this assumption does not always hold. We thus propose a new model based on the Vision Transformer architecture with patch masking: the input image is split in several patches, and each patch is reconstructed only from the surrounding data, thus ignoring the potentially anomalous information contained in the patch itself. We then show that multi-resolution patches and their collective embeddings provide a large improvement in the model’s performance compared to the exclusive use of the traditional square patches. The proposed model has been tested on popular anomaly detection datasets such as MVTec and head CT and achieved good results when compared to other state-of-the-art approaches.
arxiv情報
著者 | Axel De Nardin,Pankaj Mishra,Gian Luca Foresti,Claudio Piciarelli |
発行日 | 2022-10-27 15:30:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google