要約
画像ベースの機械学習モデルは、農産物の選別や等級付けをより効率的に行うために利用することができます。多くの地域では、ポストハーベストのサプライチェーンが集中化・自動化されていないため、このようなシステムの導入が困難な場合があります。また、ステークホルダーが小規模で機械学習に特化していない場合が多く、大規模な学習データセットが利用できない。我々は、事前に学習されたVision Transformersに基づく画像の機械学習手順を提案する。これは、深層ニューラルネットワークを(再)学習しないため、畳み込みニューラルネットワーク(CNN)を学習する現在の標準的なアプローチよりも実装が簡単である。我々は、リンゴの欠陥検出とバナナの熟度推定の2つのデータセットに基づき、我々のアプローチを評価する。我々のモデルは、最も性能の良いCNNと同等か1%以下の分類精度を達成した。同時に、90%の精度を達成するために必要な学習サンプルは3倍少ない。
要約(オリジナル)
Image-based machine learning models can be used to make the sorting and grading of agricultural products more efficient. In many regions, implementing such systems can be difficult due to the lack of centralization and automation of postharvest supply chains. Stakeholders are often too small to specialize in machine learning, and large training data sets are unavailable. We propose a machine learning procedure for images based on pre-trained Vision Transformers. It is easier to implement than the current standard approach of training Convolutional Neural Networks (CNNs) as we do not (re-)train deep neural networks. We evaluate our approach based on two data sets for apple defect detection and banana ripeness estimation. Our model achieves a competitive classification accuracy equal to or less than one percent below the best-performing CNN. At the same time, it requires three times fewer training samples to achieve a 90% accuracy.
arxiv情報
著者 | Manuel Knott,Fernando Perez-Cruz,Thijs Defraeye |
発行日 | 2023-01-04 01:22:30+00:00 |
arxivサイト | arxiv_id(pdf) |