Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection

要約

大規模ビジョン言語モデル (LVLM) は、自然言語に基づいて視覚表現を導き出すことに非常に優れています。
最近の探査では、異常プロンプトと呼ばれる正常および異常な状態を示すテキストの説明と画像を組み合わせることで、LVLM を利用してゼロショット視覚異常検出 (VAD) の課題に取り組みました。
ただし、既存のアプローチは、セマンティック間のあいまいさが生じやすい静的な異常プロンプトに依存しており、異常の位置を正確に特定するために必要な重要なローカルのピクセルレベルの画像とテキストの位置合わせよりも、グローバルな画像レベルの表現を優先しています。
このペーパーでは、統合モデルを通じてこれらの課題に対処するように設計されたトレーニング不要のアプローチである ALFA を紹介します。
我々は、実行時プロンプト適応戦略を提案します。これは、まず、大規模言語モデル (LLM) の機能を活用するために、有益な異常プロンプトを生成します。
この戦略は、画像ごとの異常プロンプト適応とセマンティック間のあいまいさの軽減のためのコンテキスト スコアリング メカニズムによって強化されます。
さらに、画像とテキストの位置合わせをグローバルからローカルのセマンティック空間に投影することで、ローカルのピクセルレベルのセマンティクスを融合して異常の位置を正確に特定するための新しいきめの細かいアライナを導入します。
困難な MVTec および VisA データセットの広範な評価により、ゼロショット VAD の言語の可能性を活用する際の ALFA の有効性が確認され、最先端のゼロショットと比較して、MVTec AD で 12.1%、VisA で 8.9% という大幅な PRO 改善を達成しました。
VADが近づいてきます。

要約(オリジナル)

Large vision-language models (LVLMs) are markedly proficient in deriving visual representations guided by natural language. Recent explorations have utilized LVLMs to tackle zero-shot visual anomaly detection (VAD) challenges by pairing images with textual descriptions indicative of normal and abnormal conditions, referred to as anomaly prompts. However, existing approaches depend on static anomaly prompts that are prone to cross-semantic ambiguity, and prioritize global image-level representations over crucial local pixel-level image-to-text alignment that is necessary for accurate anomaly localization. In this paper, we present ALFA, a training-free approach designed to address these challenges via a unified model. We propose a run-time prompt adaptation strategy, which first generates informative anomaly prompts to leverage the capabilities of a large language model (LLM). This strategy is enhanced by a contextual scoring mechanism for per-image anomaly prompt adaptation and cross-semantic ambiguity mitigation. We further introduce a novel fine-grained aligner to fuse local pixel-level semantics for precise anomaly localization, by projecting the image-text alignment from global to local semantic spaces. Extensive evaluations on the challenging MVTec and VisA datasets confirm ALFA’s effectiveness in harnessing the language potential for zero-shot VAD, achieving significant PRO improvements of 12.1% on MVTec AD and 8.9% on VisA compared to state-of-the-art zero-shot VAD approaches.

arxiv情報

著者 Jiaqi Zhu,Shaofeng Cai,Fang Deng,Junran Wu
発行日 2024-04-15 10:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク