Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

要約

既存の産業異常検出 (IAD) 手法は、異常検出と位置特定の両方について異常スコアを予測します。
しかし、彼らは、色、形、産業異常のカテゴリなど、異常領域の詳細な説明と複数ターンの対話を実行するのに苦労しています。
最近、大規模なマルチモーダル (つまり、視覚と言語) モデル (LMM) が、画像キャプション、視覚的理解、視覚的推論などの複数の視覚タスクで優れた認識能力を示しており、よりわかりやすい異常検出のための競争力のある潜在的な選択肢となっています。
ただし、既存の一般的な LMM には異常検出に関する知識がありませんが、異常検出用に特定の LMM をトレーニングするには、膨大な量の注釈付きデータと膨大な計算リソースが必要です。
この論文では、産業用異常検出 (Myriad と呼ばれる) に視覚専門家を適用することにより、明確な異常検出と高品質な異常記述につながる、新しい大規模マルチモーダル モデルを提案します。
具体的には、ベース LMM として MiniGPT-4 を採用し、視覚専門家からの事前知識を大規模言語モデル (LLM) が理解できるトークンとして埋め込むエキスパート認識モジュールを設計します。
視覚専門家の間違いや混乱を補うために、一般的な画像と産業用画像の間の視覚表現のギャップを埋めるドメイン アダプターを導入します。
さらに、ビジョン エキスパート インストラクターを提案します。これにより、Q-Former は、事前のビジョン エキスパートに従って IAD ドメインのビジョン言語トークンを生成できます。
MVTec-AD および VisA ベンチマークに関する広範な実験により、私たちの提案手法が 1 クラスおよび少数ショット設定で最先端の手法に対して有利に機能するだけでなく、IAD での詳細な説明とともに明確な異常予測も提供できることが実証されました。
ドメイン。

要約(オリジナル)

Existing industrial anomaly detection (IAD) methods predict anomaly scores for both anomaly detection and localization. However, they struggle to perform a multi-turn dialog and detailed descriptions for anomaly regions, e.g., color, shape, and categories of industrial anomalies. Recently, large multimodal (i.e., vision and language) models (LMMs) have shown eminent perception abilities on multiple vision tasks such as image captioning, visual understanding, visual reasoning, etc., making it a competitive potential choice for more comprehensible anomaly detection. However, the knowledge about anomaly detection is absent in existing general LMMs, while training a specific LMM for anomaly detection requires a tremendous amount of annotated data and massive computation resources. In this paper, we propose a novel large multi-modal model by applying vision experts for industrial anomaly detection (dubbed Myriad), which leads to definite anomaly detection and high-quality anomaly description. Specifically, we adopt MiniGPT-4 as the base LMM and design an Expert Perception module to embed the prior knowledge from vision experts as tokens which are intelligible to Large Language Models (LLMs). To compensate for the errors and confusions of vision experts, we introduce a domain adapter to bridge the visual representation gaps between generic and industrial images. Furthermore, we propose a Vision Expert Instructor, which enables the Q-Former to generate IAD domain vision-language tokens according to vision expert prior. Extensive experiments on MVTec-AD and VisA benchmarks demonstrate that our proposed method not only performs favorably against state-of-the-art methods under the 1-class and few-shot settings, but also provide definite anomaly prediction along with detailed descriptions in IAD domain.

arxiv情報

著者 Yuanze Li,Haolin Wang,Shihao Yuan,Ming Liu,Yiwen Guo,Chen Xu,Guangming Shi,Wangmeng Zuo
発行日 2023-10-29 16:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク