要約
ゼロショット異常検出 (ZSAD) は、ターゲット データセットからのトレーニング サンプルを必要とせずに異常を特定します。これは、プライバシー上の懸念がある場合やデータが限られているシナリオには不可欠です。
CLIP のような視覚言語モデルは、ZSAD での可能性を示していますが、制限があります。手動で作成された固定テキストの説明や異常プロンプトに依存すると、時間がかかり、意味論的な曖昧さが生じやすく、CLIP はピクセルレベルの異常セグメンテーションに苦労し、よりグローバルなセマンティクスに重点を置いています。
地元の詳細。
これらの制限に対処するために、視覚言語モデルを活用する新しい ZSAD フレームワークである KAnoCLIP を紹介します。
KAnoCLIP は、大規模言語モデル (GPT-3.5) からの一般的な知識と、知識主導型プロンプト学習 (KnPL) を介してビジュアル質問応答システム (Llama3) からのきめの細かい画像固有の知識を組み合わせます。
KnPL は、知識駆動型 (KD) 損失関数を使用して学習可能な異常プロンプトを作成し、固定テキスト プロンプトの必要性を排除し、一般化を強化します。
KAnoCLIP には、V-V アテンション (CLIP-VV) を備えた CLIP ビジュアル エンコーダー、マルチレベル クロスモーダル インタラクションのための双方向クロスアテンション (Bi-CMCI)、および Conv-Adapter が含まれています。
これらのコンポーネントは、ローカルな視覚的セマンティクスを保持し、ローカルなクロスモーダル融合を改善し、グローバルな視覚的特徴をテキスト情報と調整して、ピクセルレベルの異常検出を強化します。
KAnoCLIP は、12 の産業および医療データセットにわたる ZSAD で最先端のパフォーマンスを達成し、既存の方法と比較して優れた一般化を実証します。
要約(オリジナル)
Zero-shot anomaly detection (ZSAD) identifies anomalies without needing training samples from the target dataset, essential for scenarios with privacy concerns or limited data. Vision-language models like CLIP show potential in ZSAD but have limitations: relying on manually crafted fixed textual descriptions or anomaly prompts is time-consuming and prone to semantic ambiguity, and CLIP struggles with pixel-level anomaly segmentation, focusing more on global semantics than local details. To address these limitations, We introduce KAnoCLIP, a novel ZSAD framework that leverages vision-language models. KAnoCLIP combines general knowledge from a Large Language Model (GPT-3.5) and fine-grained, image-specific knowledge from a Visual Question Answering system (Llama3) via Knowledge-Driven Prompt Learning (KnPL). KnPL uses a knowledge-driven (KD) loss function to create learnable anomaly prompts, removing the need for fixed text prompts and enhancing generalization. KAnoCLIP includes the CLIP visual encoder with V-V attention (CLIP-VV), Bi-Directional Cross-Attention for Multi-Level Cross-Modal Interaction (Bi-CMCI), and Conv-Adapter. These components preserve local visual semantics, improve local cross-modal fusion, and align global visual features with textual information, enhancing pixel-level anomaly detection. KAnoCLIP achieves state-of-the-art performance in ZSAD across 12 industrial and medical datasets, demonstrating superior generalization compared to existing methods.
arxiv情報
著者 | Chengyuan Li,Suyang Zhou,Jieping Kong,Lei Qi,Hui Xue |
発行日 | 2025-01-07 13:51:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google