Improving Vision Anomaly Detection with the Guidance of Language Modality

要約

近年、産業上の欠陥検出やイベント検出などに取り組むため、異常検出への関心が高まっています。しかし、既存の教師なし異常検出器、特に視覚モダリティ用の異常検出器は、冗長な情報と潜在スペースが少ないため、重大な課題に直面しています。
逆に、言語モダリティは、データが比較的単一であるため、パフォーマンスが良好です。
この論文は、マルチモーダルの観点から視覚モダリティに関する前述の課題に取り組みます。
具体的には、冗長情報問題と疎空間問題にそれぞれ取り組むために、クロスモーダルエントロピー削減 (CMER) とクロスモーダル線形埋め込み (CMLE) で構成されるクロスモーダル ガイダンス (CMG) を提案します。
CMER は、生の画像の一部をマスクし、テキストとの一致スコアを計算します。
次に、CMER は無関係なピクセルを破棄して、検出器が重要なコンテンツに焦点を合わせられるようにします。
視覚異常検出器のためのよりコンパクトな潜在空間を学習するために、CMLE は言語モダリティから相関構造行列を学習し、その後、視覚モダリティの潜在空間が行列のガイダンスに従って学習されます。
その後、視覚潜在空間は意味的に類似した画像を近づけます。
広範な実験により、提案された方法の有効性が実証されています。
特に、CMG は画像のみを使用するベースラインよりも 16.81% 優れています。
アブレーション実験では、各コンポーネントが最適なパフォーマンスを達成するために他のコンポーネントに依存しているため、提案された方法間の相乗効果がさらに確認されます。

要約(オリジナル)

Recent years have seen a surge of interest in anomaly detection for tackling industrial defect detection, event detection, etc. However, existing unsupervised anomaly detectors, particularly those for the vision modality, face significant challenges due to redundant information and sparse latent space. Conversely, the language modality performs well due to its relatively single data. This paper tackles the aforementioned challenges for vision modality from a multimodal point of view. Specifically, we propose Cross-modal Guidance (CMG), which consists of Cross-modal Entropy Reduction (CMER) and Cross-modal Linear Embedding (CMLE), to tackle the redundant information issue and sparse space issue, respectively. CMER masks parts of the raw image and computes the matching score with the text. Then, CMER discards irrelevant pixels to make the detector focus on critical contents. To learn a more compact latent space for the vision anomaly detector, CMLE learns a correlation structure matrix from the language modality, and then the latent space of vision modality will be learned with the guidance of the matrix. Thereafter, the vision latent space will get semantically similar images closer. Extensive experiments demonstrate the effectiveness of the proposed methods. Particularly, CMG outperforms the baseline that only uses images by 16.81%. Ablation experiments further confirm the synergy among the proposed methods, as each component depends on the other to achieve optimal performance.

arxiv情報

著者 Dong Chen,Kaihang Pan,Guoming Wang,Yueting Zhuang,Siliang Tang
発行日 2023-10-04 13:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク