要約
異常検出は、異常の定義、異常タイプの多様性(局所的および世界的な欠陥など)、およびトレーニングデータの希少性の曖昧さのために、複雑な問題です。
そのため、データが限られていても、低レベルと高レベルの機能の両方をキャプチャできる包括的なモデルが必要です。
これに対処するために、識別と生成の基礎モデルの両方を活用する方法であるClipFusionを提案します。
具体的には、クリップベースの識別モデルはグローバルな機能のキャプチャに優れていますが、拡散ベースの生成モデルはローカルの詳細を効果的にキャプチャし、相乗的で補完的なアプローチを作成します。
特に、異常検出のために特に拡散モデルから抽出されたクロスアテンションマップと機能マップを使用するための方法論を紹介します。
ベンチマークデータセット(MVTEC-AD、Visa)の実験結果は、ClipFusionがベースラインメソッドを一貫して上回り、異常なセグメンテーションと分類の両方で優れたパフォーマンスを達成することを示しています。
私たちの方法は、異常検出の多面的な課題に取り組む際のマルチモーダルおよびマルチモデル融合の有効性を強調し、実際のアプリケーションにスケーラブルなソリューションを提供すると考えています。
要約(オリジナル)
Anomaly detection is a complex problem due to the ambiguity in defining anomalies, the diversity of anomaly types (e.g., local and global defect), and the scarcity of training data. As such, it necessitates a comprehensive model capable of capturing both low-level and high-level features, even with limited data. To address this, we propose CLIPFUSION, a method that leverages both discriminative and generative foundation models. Specifically, the CLIP-based discriminative model excels at capturing global features, while the diffusion-based generative model effectively captures local details, creating a synergistic and complementary approach. Notably, we introduce a methodology for utilizing cross-attention maps and feature maps extracted from diffusion models specifically for anomaly detection. Experimental results on benchmark datasets (MVTec-AD, VisA) demonstrate that CLIPFUSION consistently outperforms baseline methods, achieving outstanding performance in both anomaly segmentation and classification. We believe that our method underscores the effectiveness of multi-modal and multi-model fusion in tackling the multifaceted challenges of anomaly detection, providing a scalable solution for real-world applications.
arxiv情報
著者 | Byeongchan Lee,John Won,Seunghyun Lee,Jinwoo Shin |
発行日 | 2025-06-13 13:30:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google