Efficient Pretraining Model based on Multi-Scale Local Visual Field Feature Reconstruction for PCB CT Image Element Segmentation

要約

要素のセグメンテーションは、コンピューター断層撮影 (CT) テクノロジーに基づくプリント基板 (PCB) の非破壊検査における重要なステップです。
近年、自己教師あり事前トレーニング技術の急速な発展により、ラベル付きサンプルなしで一般的な画像特徴を取得し、少量のラベル付きサンプルを使用して下流タスクを解決できるようになりました。これは、PCB 要素のセグメンテーションにおいて優れた可能性を秘めています。
現在、マスク画像モデリング (MIM) 事前トレーニング モデルが最初に PCB CT 画像要素セグメンテーションに適用されています。
ただし、ビア、ワイヤ、パッドなどの PCB 要素は小さくて一定のサイズであるため、単一要素の再構築に対して全体的な視野には冗長性があり、モデルのパフォーマンスに損害を与える可能性があります。
この問題に基づいて、PCB CT画像要素セグメンテーション(EMLR-seg)のためのマルチスケール局所視野特徴再構成に基づく効率的な事前学習モデルを提案します。
このモデルでは、教師主導の MIM 事前トレーニング モデルが PCB CT 画像要素セグメンテーションに初めて導入され、局所視野に焦点を当てることで冗長性を削減するマルチスケールの局所視野抽出 (MVE) モジュールが提案されています。
同時に、単純な 4 Transformer ブロック デコーダが使用されます。
実験の結果、EMLR-segは、私たちが提案したPCB CT画像データセットで88.6%のmIoUを達成できることが示されており、これはベースラインモデルの1.2%を超えており、トレーニング時間は29.6時間短縮され、同じ実験条件下では17.4%の短縮となっています。
これは、パフォーマンスと効率の点で EMLR セグメントの利点を反映しています。

要約(オリジナル)

Element segmentation is a key step in nondestructive testing of Printed Circuit Boards (PCB) based on Computed Tomography (CT) technology. In recent years, the rapid development of self-supervised pretraining technology can obtain general image features without labeled samples, and then use a small amount of labeled samples to solve downstream tasks, which has a good potential in PCB element segmentation. At present, Masked Image Modeling (MIM) pretraining model has been initially applied in PCB CT image element segmentation. However, due to the small and regular size of PCB elements such as vias, wires, and pads, the global visual field has redundancy for a single element reconstruction, which may damage the performance of the model. Based on this issue, we propose an efficient pretraining model based on multi-scale local visual field feature reconstruction for PCB CT image element segmentation (EMLR-seg). In this model, the teacher-guided MIM pretraining model is introduced into PCB CT image element segmentation for the first time, and a multi-scale local visual field extraction (MVE) module is proposed to reduce redundancy by focusing on local visual fields. At the same time, a simple 4-Transformer-blocks decoder is used. Experiments show that EMLR-seg can achieve 88.6% mIoU on the PCB CT image dataset we proposed, which exceeds 1.2% by the baseline model, and the training time is reduced by 29.6 hours, a reduction of 17.4% under the same experimental condition, which reflects the advantage of EMLR-seg in terms of performance and efficiency.

arxiv情報

著者 Chen Chen,Kai Qiao,Jie Yang,Jian Chen,Bin Yan
発行日 2024-05-09 13:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク