要約
論理的画像理解とは、画像の視覚的コンテンツ内の関係性や一貫性を解釈し、推論することです。この能力は、高品質の基準を維持し、費用のかかるリコールを最小限に抑えるために論理的な異常検出が重要である工業検査などのアプリケーションにおいて不可欠である。これまでの異常検出(AD)の研究では、アルゴリズムを設計するために事前知識に依存しており、多くの場合、大規模な手動アノテーション、多大な計算能力、およびトレーニングのための大量のデータを必要とする。自己回帰的なマルチモーダル視覚言語モデル(AVLM)は、様々な領域における視覚的推論における卓越した性能により、有望な代替手段を提供する。にもかかわらず、論理的ADへの応用は未解明のままである。本研究では、AVLMを論理的ADに利用することを検討し、AVLMがこのタスクに適していることを実証する。AVLMをフォーマット埋め込みと論理推論器と組み合わせることで、公開ベンチマークであるMVTec LOCO ADにおいてAUROC 86.0%、F1-max 83.7%のSOTA性能を達成し、異常の説明も行った。これは既存のSOTA手法を大きく上回るものである。
要約(オリジナル)
Logical image understanding involves interpreting and reasoning about the relationships and consistency within an image’s visual content. This capability is essential in applications such as industrial inspection, where logical anomaly detection is critical for maintaining high-quality standards and minimizing costly recalls. Previous research in anomaly detection (AD) has relied on prior knowledge for designing algorithms, which often requires extensive manual annotations, significant computing power, and large amounts of data for training. Autoregressive, multimodal Vision Language Models (AVLMs) offer a promising alternative due to their exceptional performance in visual reasoning across various domains. Despite this, their application to logical AD remains unexplored. In this work, we investigate using AVLMs for logical AD and demonstrate that they are well-suited to the task. Combining AVLMs with format embedding and a logic reasoner, we achieve SOTA performance on public benchmarks, MVTec LOCO AD, with an AUROC of 86.0% and F1-max of 83.7%, along with explanations of anomalies. This significantly outperforms the existing SOTA method by a large margin.
arxiv情報
著者 | Er Jin,Qihui Feng,Yongli Mou,Stefan Decker,Gerhard Lakemeyer,Oliver Simons,Johannes Stegmaier |
発行日 | 2025-01-03 11:40:41+00:00 |
arxivサイト | arxiv_id(pdf) |