Towards Efficient Pixel Labeling for Industrial Anomaly Detection and Localization


実用的な異常検出(AD)タスクの領域では、異常ピクセルの手作業によるラベリングはコストのかかる努力である。その結果、多くのAD手法は1クラス分類器として作られ、異常が全くないトレーニングセット用に調整され、より費用対効果の高いアプローチを保証している。いくつかの先駆的な研究では、実際の異常サンプルをトレーニングに組み込むことでADの精度が向上することが実証されているが、この向上は手間のかかるラベリングプロセスの代償となる。本論文では、新しい対話型画像分割(IIS)アルゴリズムであるADClickを導入することで、AD精度とラベリング費用のバランスをとる。ADClickは、革新的な残差機能と綿密に作成された言語プロンプトを活用し、実際の欠陥画像に対して「真実の」異常マスクを効率的に生成する。特筆すべきは、ADClickは既存の最先端IISアプローチと比較して著しく高い汎化能力を示すことである。ADClickは、異常ラベリングツールとして機能し、トレーニング画像1枚当たりわずか$3$から$5$の手動クリック注釈に基づいて、高品質な異常ラベル(MVTec ADでAP $= 94.1%$)を生成する。さらに、我々はADClickの能力を、異常検出とローカライゼーションのために設計された拡張モデルであるADClick-Segに拡張する。ADClickによって推論された弱いラベルを用いてADClick-Segモデルを微調整することで、我々は教師ありADタスクにおいて最先端の性能を確立した(MVTec ADではAP $= 86.4%$, KSDD2ではAP $= 78.4%$, PRO $= 98.6%%)。


In the realm of practical Anomaly Detection (AD) tasks, manual labeling of anomalous pixels proves to be a costly endeavor. Consequently, many AD methods are crafted as one-class classifiers, tailored for training sets completely devoid of anomalies, ensuring a more cost-effective approach. While some pioneering work has demonstrated heightened AD accuracy by incorporating real anomaly samples in training, this enhancement comes at the price of labor-intensive labeling processes. This paper strikes the balance between AD accuracy and labeling expenses by introducing ADClick, a novel Interactive Image Segmentation (IIS) algorithm. ADClick efficiently generates ‘ground-truth’ anomaly masks for real defective images, leveraging innovative residual features and meticulously crafted language prompts. Notably, ADClick showcases a significantly elevated generalization capacity compared to existing state-of-the-art IIS approaches. Functioning as an anomaly labeling tool, ADClick generates high-quality anomaly labels (AP $= 94.1\%$ on MVTec AD) based on only $3$ to $5$ manual click annotations per training image. Furthermore, we extend the capabilities of ADClick into ADClick-Seg, an enhanced model designed for anomaly detection and localization. By fine-tuning the ADClick-Seg model using the weak labels inferred by ADClick, we establish the state-of-the-art performances in supervised AD tasks (AP $= 86.4\%$ on MVTec AD and AP $= 78.4\%$, PRO $= 98.6\%$ on KSDD2).


