Efficient Neural Net Approaches in Metal Casting Defect Detection

要約

鉄鋼業界では、表面欠陥の特定が最も重要な課題の一つとなっています。鋳造欠陥の早期発見は、生産プロセスの合理化など、パフォーマンスの向上に役立ちます。深層学習モデルは、このギャップを埋め、これらのプロセスの大部分を自動化するのに役立っていますが、より速い推論時間で簡単に展開できる軽量モデルを考え出すことが切実に求められています。本研究では、MobileNet、Inception、ResNetなどの洗練された事前学習済みCNNアーキテクチャと比較して、精度と推論時間の点で効率的な、ビジョントランスを含む軽量アーキテクチャを提案する。深さ方向に分離可能な畳み込みやグローバル平均プーリング(GAP)層など、計算量を最小化する方法論が、アーキテクチャの効率や補強を改善する技術を含めて、実験されている。その結果、深さ方向に分離可能な畳み込みを用いた590Kパラメータのカスタムモデルは、ResnetやVision transformersなどの事前学習済みアーキテクチャを精度(81.87%)で上回り、推論時間(12ミリ秒)でResnet、Inception、Vision transformersなどのアーキテクチャを余裕で凌駕することが明らかになりました。Blurpoolは、83.98%の精度で、他の技術を上回りました。Augmentationはモデル性能に逆説的な影響を及ぼした。深さ方向と3×3畳み込みの間には推論時間に対する直接的な相関はなかったが、ネットワークがより深くなり、学習可能なパラメータ数が減少することによって、モデル効率の向上に直接的な役割を果たした。我々の研究は、効率的なアーキテクチャと高速な推論時間を持つカスタムネットワークが、事前に学習されたアーキテクチャに依存することなく構築できるという事実に光を当てている。

要約(オリジナル)

One of the most pressing challenges prevalent in the steel manufacturing industry is the identification of surface defects. Early identification of casting defects can help boost performance, including streamlining production processes. Though, deep learning models have helped bridge this gap and automate most of these processes, there is a dire need to come up with lightweight models that can be deployed easily with faster inference times. This research proposes a lightweight architecture that is efficient in terms of accuracy and inference time compared with sophisticated pre-trained CNN architectures like MobileNet, Inception, and ResNet, including vision transformers. Methodologies to minimize computational requirements such as depth-wise separable convolution and global average pooling (GAP) layer, including techniques that improve architectural efficiencies and augmentations, have been experimented. Our results indicate that a custom model of 590K parameters with depth-wise separable convolutions outperformed pretrained architectures such as Resnet and Vision transformers in terms of accuracy (81.87%) and comfortably outdid architectures such as Resnet, Inception, and Vision transformers in terms of faster inference times (12 ms). Blurpool fared outperformed other techniques, with an accuracy of 83.98%. Augmentations had a paradoxical effect on the model performance. No direct correlation between depth-wise and 3×3 convolutions on inference time, they, however, they played a direct role in improving model efficiency by enabling the networks to go deeper and by decreasing the number of trainable parameters. Our work sheds light on the fact that custom networks with efficient architectures and faster inference times can be built without the need of relying on pre-trained architectures.

arxiv情報

著者 Rohit Lal,Bharath Kumar Bolla,Sabeesh Ethiraj
発行日 2022-08-08 13:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク