要約
産業検査の分野では、マルチモーダル大規模言語モデル (MLLM) は、その堅牢な言語機能と一般化機能により、実際のアプリケーションのパラダイムを更新する高い可能性を秘めています。
しかし、MLLM は多くの分野で優れた問題解決スキルを持っているにもかかわらず、産業異常検出における MLLM の能力は体系的に研究されていません。
このギャップを埋めるために、産業用異常検出における史上初のフルスペクトル MLLM ベンチマークである MMAD を紹介します。
私たちは工業検査における MLLM の 7 つの主要なサブタスクを定義し、8,366 の工業用画像に対する 39,672 の質問を含む MMAD データセットを生成する新しいパイプラインを設計しました。
MMAD を使用して、さまざまな最先端の MLLM の包括的かつ定量的な評価を実施しました。
商用モデルのパフォーマンスが最も高く、GPT-4o モデルの平均精度は 74.9% に達しました。
しかし、この結果は産業上の要件をはるかに下回っています。
私たちの分析により、現在の MLLM には、産業上の異常や欠陥に関連する質問への回答において、まだ改善の余地がかなりあることが明らかになりました。
さらに、産業シナリオでのモデルの改善に役立つ 2 つのトレーニング不要のパフォーマンス強化戦略を検討し、将来の研究における有望な可能性を強調します。
要約(オリジナル)
In the field of industrial inspection, Multimodal Large Language Models (MLLMs) have a high potential to renew the paradigms in practical applications due to their robust language capabilities and generalization abilities. However, despite their impressive problem-solving skills in many domains, MLLMs’ ability in industrial anomaly detection has not been systematically studied. To bridge this gap, we present MMAD, the first-ever full-spectrum MLLMs benchmark in industrial Anomaly Detection. We defined seven key subtasks of MLLMs in industrial inspection and designed a novel pipeline to generate the MMAD dataset with 39,672 questions for 8,366 industrial images. With MMAD, we have conducted a comprehensive, quantitative evaluation of various state-of-the-art MLLMs. The commercial models performed the best, with the average accuracy of GPT-4o models reaching 74.9%. However, this result falls far short of industrial requirements. Our analysis reveals that current MLLMs still have significant room for improvement in answering questions related to industrial anomalies and defects. We further explore two training-free performance enhancement strategies to help models improve in industrial scenarios, highlighting their promising potential for future research.
arxiv情報
著者 | Xi Jiang,Jian Li,Hanqiu Deng,Yong Liu,Bin-Bin Gao,Yifeng Zhou,Jialin Li,Chengjie Wang,Feng Zheng |
発行日 | 2025-01-07 13:00:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google