OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System

要約

自動光学検査 (AOI) は製造プロセスにおいて極めて重要な役割を果たしており、主にスキャン目的で高解像度の画像機器を活用しています。
画像のテクスチャやパターンを分析することで異常を検出し、工業生産や品質管理に不可欠なツールとなっています。
その重要性にもかかわらず、AOI のモデルの展開はしばしば課題に直面します。
これらには、効果的な特徴学習を妨げる限られたサンプル サイズ、ソース ドメイン間の変動、イメージング中の照明やカメラの位置の変化に対する敏感さが含まれます。
これらの要因が集合的にモデル予測の精度を損ないます。
従来の AOI は、通常 AOI 分類に役立つ統計パラメータを含む、機械や内部画像からの豊富な機構パラメータ情報を活用できないことがよくあります。
これに対処するために、主に光学式文字認識 (OCR) に根ざした外部モダリティ主導のデータ マイニング フレームワークを導入し、パフォーマンスを向上させる 2 番目のモダリティとして画像から統計的特徴を抽出します。OANet (Ocr-Aoi-Net) と呼ばれます。
私たちのアプローチの重要な側面は、単一のモダリティ認識モデルを使用して抽出された外部モダリティ特徴と、畳み込みニューラル ネットワークによってエンコードされた画像特徴との位置合わせです。
この相乗効果により、さまざまなモダリティからの意味表現のより洗練された融合が可能になります。
さらに、OANet に機能の改良とゲート機能を導入して、これらの機能の組み合わせを最適化し、推論と意思決定の機能を強化します。
実験結果は、私たちの方法論が欠陥検出モデルの再現率を大幅に高め、困難なシナリオでも高い堅牢性を維持することを示しています。

要約(オリジナル)

Automatic optical inspection (AOI) plays a pivotal role in the manufacturing process, predominantly leveraging high-resolution imaging instruments for scanning purposes. It detects anomalies by analyzing image textures or patterns, making it an essential tool in industrial manufacturing and quality control. Despite its importance, the deployment of models for AOI often faces challenges. These include limited sample sizes, which hinder effective feature learning, variations among source domains, and sensitivities to changes in lighting and camera positions during imaging. These factors collectively compromise the accuracy of model predictions. Traditional AOI often fails to capitalize on the rich mechanism-parameter information from machines or inside images, including statistical parameters, which typically benefit AOI classification. To address this, we introduce an external modality-guided data mining framework, primarily rooted in optical character recognition (OCR), to extract statistical features from images as a second modality to enhance performance, termed OANet (Ocr-Aoi-Net). A key aspect of our approach is the alignment of external modality features, extracted using a single modality-aware model, with image features encoded by a convolutional neural network. This synergy enables a more refined fusion of semantic representations from different modalities. We further introduce feature refinement and a gating function in our OANet to optimize the combination of these features, enhancing inference and decision-making capabilities. Experimental outcomes show that our methodology considerably boosts the recall rate of the defect detection model and maintains high robustness even in challenging scenarios.

arxiv情報

著者 Chih-Chung Hsu,Chia-Ming Lee,Chun-Hung Sun,Kuang-Ming Wu
発行日 2024-03-18 07:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク