要約
ゼロショット異常検出 (ZSAD) は、任意の新しいカテゴリからの画像内の異常の特定をターゲットとしています。
この研究では、事前トレーニングされた視覚言語モデル (VLM) である CLIP を活用した、ZSAD タスク用の AdaCLIP を紹介します。
AdaCLIP は、学習可能なプロンプトを CLIP に組み込み、補助的な注釈付き異常検出データのトレーニングを通じてプロンプトを最適化します。
学習可能なプロンプトには、静的プロンプトと動的プロンプトの 2 種類が提案されています。
静的プロンプトはすべてのイメージで共有され、CLIP を ZSAD に事前に適合させるのに役立ちます。
対照的に、動的プロンプトはテスト画像ごとに生成され、CLIP に動的適応機能を提供します。
静的プロンプトと動的プロンプトの組み合わせはハイブリッド プロンプトと呼ばれ、ZSAD のパフォーマンスが向上します。
産業および医療分野の 14 の実世界の異常検出データセットにわたって行われた広範な実験により、AdaCLIP が他の ZSAD 手法よりも優れたパフォーマンスを発揮し、さまざまなカテゴリやさらには分野に対してより適切に一般化できることが示されました。
最後に、私たちの分析は、汎化能力を強化するための多様な補助データと最適化されたプロンプトの重要性を強調しています。
コードは https://github.com/caoyunkang/AdaCLIP で入手できます。
要約(オリジナル)
Zero-shot anomaly detection (ZSAD) targets the identification of anomalies within images from arbitrary novel categories. This study introduces AdaCLIP for the ZSAD task, leveraging a pre-trained vision-language model (VLM), CLIP. AdaCLIP incorporates learnable prompts into CLIP and optimizes them through training on auxiliary annotated anomaly detection data. Two types of learnable prompts are proposed: static and dynamic. Static prompts are shared across all images, serving to preliminarily adapt CLIP for ZSAD. In contrast, dynamic prompts are generated for each test image, providing CLIP with dynamic adaptation capabilities. The combination of static and dynamic prompts is referred to as hybrid prompts, and yields enhanced ZSAD performance. Extensive experiments conducted across 14 real-world anomaly detection datasets from industrial and medical domains indicate that AdaCLIP outperforms other ZSAD methods and can generalize better to different categories and even domains. Finally, our analysis highlights the importance of diverse auxiliary data and optimized prompts for enhanced generalization capacity. Code is available at https://github.com/caoyunkang/AdaCLIP.
arxiv情報
著者 | Yunkang Cao,Jiangning Zhang,Luca Frittoli,Yuqi Cheng,Weiming Shen,Giacomo Boracchi |
発行日 | 2024-07-22 16:52:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google