Construction material classification on imbalanced datasets using Vision Transformer (ViT) architecture

要約

本研究では、異なる建設資材を最高の精度で識別するための信頼性の高いモデルを提案し、自動進捗監視などの幅広い建設アプリケーションのための有利なツールとして活用する。本研究では、Vision Transformer (ViT) と呼ばれる新しい深層学習アーキテクチャを建設資材の検出と分類のために使用する。採用された手法の頑健性は、異なる画像データセットを利用することで評価される。この目的のために、モデルは2つの大規模な不均衡データセット、すなわちConstruction Material Library(CML)とBuilding Material Dataset(BMD)でトレーニング及びテストされる。さらに、CMLとBMDを組み合わせて3つ目のデータセットを作成し、より不均衡なデータセットを作成し、利用した手法の能力を評価する。その結果、3つの異なるデータセットの各材料カテゴリについて、精度、正確さ、再現率、f1スコアなどの評価指標で100%の精度が得られることが明らかになった。提案されたモデルは、異なる材料タイプを検出し、分類するための堅牢なツールを実現するものと考えられる。現在までに、多くの研究が様々な建築資材の自動分類を試みているが、まだいくつかの誤差がある。本研究では、このような欠点に対処し、より高い精度で材料の種類を検出するためのモデルを提案する。また、採用したモデルは、異なるデータセットに一般化することが可能である。

要約(オリジナル)

This research proposes a reliable model for identifying different construction materials with the highest accuracy, which is exploited as an advantageous tool for a wide range of construction applications such as automated progress monitoring. In this study, a novel deep learning architecture called Vision Transformer (ViT) is used for detecting and classifying construction materials. The robustness of the employed method is assessed by utilizing different image datasets. For this purpose, the model is trained and tested on two large imbalanced datasets, namely Construction Material Library (CML) and Building Material Dataset (BMD). A third dataset is also generated by combining CML and BMD to create a more imbalanced dataset and assess the capabilities of the utilized method. The achieved results reveal an accuracy of 100 percent in evaluation metrics such as accuracy, precision, recall rate, and f1-score for each material category of three different datasets. It is believed that the suggested model accomplishes a robust tool for detecting and classifying different material types. To date, a number of studies have attempted to automatically classify a variety of building materials, which still have some errors. This research will address the mentioned shortcoming and proposes a model to detect the material type with higher accuracy. The employed model is also capable of being generalized to different datasets.

arxiv情報

著者 Maryam Soleymani,Mahdi Bonyani,Hadi Mahami,Farnad Nasirzadeh
発行日 2022-09-06 16:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク