Bugs in the Data: How ImageNet Misrepresents Biodiversity

要約

ImageNet-1k は、機械学習 (ML) モデルのベンチマークや、画像認識や物体検出などのタスクの評価によく使用されるデータセットです。
野生動物は ImageNet-1k の 27% を占めていますが、人や物を表すクラスとは異なり、これらのデータは綿密に精査されていません。
現在の論文では、専門の生態学者の参加を得て、ImageNet-1k 検証セットの野生動物を表す 269 のクラスから 13,450 の画像を分析しています。
多くのクラスが不明確または重複しており、画像の 12% が誤ってラベル付けされており、一部のクラスでは画像の 90% が正しくないことがわかりました。
また、ImageNet-1k に含まれる野生生物関連のラベルと画像の両方が、地理的および文化的な偏りに加えて、人工動物、同じ画像内の複数の種、または人間の存在などのあいまいさを示していることもわかりました。
私たちの調査結果は、ML システムを評価するためのこのデータセットの広範な使用、野生生物関連のタスクでのそのようなアルゴリズムの使用、および ML データセットが一般的に作成およびキュレーションされる方法をより広く使用することに関する深刻な問題を浮き彫りにしています。

要約(オリジナル)

ImageNet-1k is a dataset often used for benchmarking machine learning (ML) models and evaluating tasks such as image recognition and object detection. Wild animals make up 27% of ImageNet-1k but, unlike classes representing people and objects, these data have not been closely scrutinized. In the current paper, we analyze the 13,450 images from 269 classes that represent wild animals in the ImageNet-1k validation set, with the participation of expert ecologists. We find that many of the classes are ill-defined or overlapping, and that 12% of the images are incorrectly labeled, with some classes having >90% of images incorrect. We also find that both the wildlife-related labels and images included in ImageNet-1k present significant geographical and cultural biases, as well as ambiguities such as artificial animals, multiple species in the same image, or the presence of humans. Our findings highlight serious issues with the extensive use of this dataset for evaluating ML systems, the use of such algorithms in wildlife-related tasks, and more broadly the ways in which ML datasets are commonly created and curated.

arxiv情報

著者 Alexandra Sasha Luccioni,David Rolnick
発行日 2022-08-24 17:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG パーマリンク