要約
少数ショット異常検出 (FSAD) は、同じクラスのごく少数の通常のサポート画像をガイドにして、目に見えない異常領域を検出することを目的としています。
既存の FSAD 手法は通常、一般的な大規模ビジョン言語モデル パラダイムの下で、複雑なテキスト プロンプトを視覚的特徴に合わせて直接設計することで異常を検出します。
しかし、これらの方法では、ほとんどの場合、視覚特徴に固有のコンテキスト情報、たとえば、異常を包括的に検出するための重要な手がかりである、異なる視覚層間の相互作用関係が無視されます。
この目的を達成するために、FSAD の視覚特徴間の層間関係を推論することにより、KAG プロンプトと呼ばれるカーネル対応のグラフ プロンプト学習フレームワークを提案します。
具体的には、カーネル対応の階層グラフは、異なるサイズの異常な領域に焦点を当てた異なる層の特徴をノードとして取得することによって構築されます。一方、任意のノードのペア間の関係はグラフのエッジを表します。
このグラフ上でメッセージを渡すことにより、KAG プロンプトはクロスレイヤーのコンテキスト情報をキャプチャできるため、より正確な異常予測につながります。
さらに、複数の重要な異常信号の情報を予測マップに統合するために、マルチレベル情報融合に基づく新しい画像レベルのスコアリング方法を提案します。
MVTecAD および VisA データセットに関する広範な実験により、KAG-prompt が画像レベル/ピクセルレベルの異常検出に関して最先端の FSAD 結果を達成することが示されました。
コードは https://github.com/CVL-hub/KAG-prompt.git で入手できます。
要約(オリジナル)
Few-shot anomaly detection (FSAD) aims to detect unseen anomaly regions with the guidance of very few normal support images from the same class. Existing FSAD methods usually find anomalies by directly designing complex text prompts to align them with visual features under the prevailing large vision-language model paradigm. However, these methods, almost always, neglect intrinsic contextual information in visual features, e.g., the interaction relationships between different vision layers, which is an important clue for detecting anomalies comprehensively. To this end, we propose a kernel-aware graph prompt learning framework, termed as KAG-prompt, by reasoning the cross-layer relations among visual features for FSAD. Specifically, a kernel-aware hierarchical graph is built by taking the different layer features focusing on anomalous regions of different sizes as nodes, meanwhile, the relationships between arbitrary pairs of nodes stand for the edges of the graph. By message passing over this graph, KAG-prompt can capture cross-layer contextual information, thus leading to more accurate anomaly prediction. Moreover, to integrate the information of multiple important anomaly signals in the prediction map, we propose a novel image-level scoring method based on multi-level information fusion. Extensive experiments on MVTecAD and VisA datasets show that KAG-prompt achieves state-of-the-art FSAD results for image-level/pixel-level anomaly detection. Code is available at https://github.com/CVL-hub/KAG-prompt.git.
arxiv情報
著者 | Fenfang Tao,Guo-Sen Xie,Fang Zhao,Xiangbo Shu |
発行日 | 2024-12-23 14:43:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google