要約
工業製品の欠陥を監視なしで目視検査することは、製品表面に大きなばらつきがあるため、重大な課題を引き起こします。
現在の教師なしモデルは、テクスチャとオブジェクトの欠陥の検出の間でバランスを取るのに苦労しており、潜在的な表現や複雑な特徴を識別する能力が不足しています。
この論文では、有名なジグソーパズルに取り組むことによって最適なエンコーダを導き出すように設計された新しい自己教師あり学習アルゴリズムを紹介します。
私たちのアプローチには、ターゲット画像を 9 つのパッチに分割し、エンコーダーに任意の 2 つのパッチ間の相対的な位置関係を予測して豊富なセマンティクスを抽出するタスクが含まれます。
続いて、正常な潜在表現と異常な潜在表現の違いを強調するための類似性拡張手法を導入します。
従来のサポート ベクター データ記述アルゴリズムを活用すると、最終的な検出結果が得られます。
実験結果は、私たちが提案した方法が、広く使用されている MVTec AD データセット上で、それぞれ 95.8% と 96.8% の優れた検出率とセグメンテーション パフォーマンスを実現し、テクスチャ欠陥とオブジェクト欠陥の両方に対する最先端のベンチマークを確立していることを示しています。
包括的な実験により、さまざまな産業用途における当社のアプローチの有効性が実証されています。
要約(オリジナル)
The unsupervised visual inspection of defects in industrial products poses a significant challenge due to substantial variations in product surfaces. Current unsupervised models struggle to strike a balance between detecting texture and object defects, lacking the capacity to discern latent representations and intricate features. In this paper, we present a novel self-supervised learning algorithm designed to derive an optimal encoder by tackling the renowned jigsaw puzzle. Our approach involves dividing the target image into nine patches, tasking the encoder with predicting the relative position relationships between any two patches to extract rich semantics. Subsequently, we introduce an affinity-augmentation method to accentuate differences between normal and abnormal latent representations. Leveraging the classic support vector data description algorithm yields final detection results. Experimental outcomes demonstrate that our proposed method achieves outstanding detection and segmentation performance on the widely used MVTec AD dataset, with rates of 95.8% and 96.8%, respectively, establishing a state-of-the-art benchmark for both texture and object defects. Comprehensive experimentation underscores the effectiveness of our approach in diverse industrial applications.
arxiv情報
著者 | Peng Wang,Haiming Yao,Wenyong Yu |
発行日 | 2023-11-21 14:57:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google