CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly Detection

要約

本論文では、テストオブジェクトの参照画像なしでADを実行する、ゼロショット異常検知(AD)について考察する。我々はCLIP-ADと呼ばれるフレームワークを提案し、大規模な視覚言語モデルCLIPのゼロショット能力を活用する。第一に、テキストプロンプトの設計を分布の観点から再解釈し、改善されたテキスト特徴を得るために代表ベクトル選択(RVS)パラダイムを提案する。次に、アノマリーマップの直接計算において、正反対の予測と無関係なハイライトに注意する。これらの問題に対処するため、様々なレベルの特徴を活用し、アーキテクチャと特徴整形を適用する段階的デュアルパスモデル(SDP)を導入する。最後に、この2つの現象を深く掘り下げることで、画像とテキストの特徴が結合埋め込み空間において整列していないことを指摘する。そこで、線形レイヤーの追加による微調整戦略を導入し、拡張モデルSDP+を構築することで、性能をさらに向上させる。例えば、MVTec-ADにおいて、SDPはセグメンテーションメトリクスF1-max/PROにおいてSOTA WinCLIPを+4.2/+10.7上回り、SDP+は+8.3/+20.5上回った。

要約(オリジナル)

This paper considers zero-shot Anomaly Detection (AD), performing AD without reference images of the test objects. We propose a framework called CLIP-AD to leverage the zero-shot capabilities of the large vision-language model CLIP. Firstly, we reinterpret the text prompts design from a distributional perspective and propose a Representative Vector Selection (RVS) paradigm to obtain improved text features. Secondly, we note opposite predictions and irrelevant highlights in the direct computation of the anomaly maps. To address these issues, we introduce a Staged Dual-Path model (SDP) that leverages features from various levels and applies architecture and feature surgery. Lastly, delving deeply into the two phenomena, we point out that the image and text features are not aligned in the joint embedding space. Thus, we introduce a fine-tuning strategy by adding linear layers and construct an extended model SDP+, further enhancing the performance. Abundant experiments demonstrate the effectiveness of our approach, e.g., on MVTec-AD, SDP outperforms the SOTA WinCLIP by +4.2/+10.7 in segmentation metrics F1-max/PRO, while SDP+ achieves +8.3/+20.5 improvements.

arxiv情報

著者 Xuhai Chen,Jiangning Zhang,Guanzhong Tian,Haoyang He,Wuhao Zhang,Yabiao Wang,Chengjie Wang,Yong Liu
発行日 2024-03-02 13:54:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク