Towards Robust Ferrous Scrap Material Classification with Deep Learning and Conformal Prediction

要約

鉄鋼生産分野では、鉄スクラップのリサイクルはエネルギー消費と温室効果ガス排出量の両方を削減するため、環境と経済の持続可能性に不可欠です。
ただし、スクラップ材料の分類には大きな課題があり、自動化技術の進歩が必要です。
さらに、人間のオペレーター間の信頼関係を構築することも大きな障害となります。
従来のアプローチでは、不確実性を定量化できないことが多く、モデルの意思決定が明確さを欠いているため、受け入れが困難になります。
この記事では、等角予測を使用して不確実性を定量化し、スクラップ分類に堅牢性を追加する方法について説明します。
当社は、Split Conformal Prediction 技術を採用して、Vision Transformer (ViT)、Swin Transformer、ResNet-50 などの最先端のコンピューター ビジョン モデルとシームレスに統合するとともに、Explainable Artificial Intelligence (XAI) 手法も組み込みました。

9 つの鉄スクラップ クラスにわたる 8147 枚の画像の包括的なデータセットを使用して、このアプローチを評価します。
分割等角予測法の適用により、各モデルの不確実性を定量化できるようになり、予測の理解が深まり、結果の信頼性が向上しました。
具体的には、Swin Transformer モデルは、予測セットの平均サイズが小さく、95% を超える平均分類精度を達成していることからわかるように、他のモデルよりも信頼性の高い結果を示しました。
さらに、Score-CAM メソッドは視覚的特徴を明確にするのに非常に効果的であることが証明され、分類決定の説明可能性が大幅に向上しました。

要約(オリジナル)

In the steel production domain, recycling ferrous scrap is essential for environmental and economic sustainability, as it reduces both energy consumption and greenhouse gas emissions. However, the classification of scrap materials poses a significant challenge, requiring advancements in automation technology. Additionally, building trust among human operators is a major obstacle. Traditional approaches often fail to quantify uncertainty and lack clarity in model decision-making, which complicates acceptance. In this article, we describe how conformal prediction can be employed to quantify uncertainty and add robustness in scrap classification. We have adapted the Split Conformal Prediction technique to seamlessly integrate with state-of-the-art computer vision models, such as the Vision Transformer (ViT), Swin Transformer, and ResNet-50, while also incorporating Explainable Artificial Intelligence (XAI) methods. We evaluate the approach using a comprehensive dataset of 8147 images spanning nine ferrous scrap classes. The application of the Split Conformal Prediction method allowed for the quantification of each model’s uncertainties, which enhanced the understanding of predictions and increased the reliability of the results. Specifically, the Swin Transformer model demonstrated more reliable outcomes than the others, as evidenced by its smaller average size of prediction sets and achieving an average classification accuracy exceeding 95%. Furthermore, the Score-CAM method proved highly effective in clarifying visual features, significantly enhancing the explainability of the classification decisions.

arxiv情報

著者 Paulo Henrique dos Santos,Valéria de Carvalho Santos,Eduardo José da Silva Luz
発行日 2024-04-19 16:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク