Uncovering bias in the PlantVillage dataset

要約

深層学習ベースの植物病害検出モデルの訓練に、人気の高いPlantVillageデータセットを使用した調査結果を報告します。PlantVillageの画像背景から8ピクセルだけを用いて機械学習モデルを訓練しました。このモデルは、ホールドアウトしたテストセットで49.0%の精度を達成し、ランダム推測の精度である2.6%を大きく上回りました。この結果は、PlantVillageデータセットにはラベルと相関のあるノイズが含まれており、深層学習モデルはこのバイアスを容易に利用して予測を行うことができることを示しています。この問題を緩和するために可能なアプローチについて議論します。

要約(オリジナル)

We report our investigation on the use of the popular PlantVillage dataset for training deep learning based plant disease detection models. We trained a machine learning model using only 8 pixels from the PlantVillage image backgrounds. The model achieved 49.0% accuracy on the held-out test set, well above the random guessing accuracy of 2.6%. This result indicates that the PlantVillage dataset contains noise correlated with the labels and deep learning models can easily exploit this bias to make predictions. Possible approaches to alleviate this problem are discussed.

arxiv情報

著者 Mehmet Alican Noyan
発行日 2022-06-09 09:32:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク