要約
最新の機械学習には高品質のデータが必要です。
しかし、そのようなデータの取得は、人間のノイズが多くあいまいな注釈のために困難です。
画像のラベルを決定するためにそのような注釈を集約すると、データ品質が低下します。
このようなデータ品質の問題の影響を調査および定量化するために、9つの実世界のデータセットと画像ごとに複数の注釈を使用したデータ中心の画像分類ベンチマークを提案します。
データ品質をどのように改善できるかを尋ねることにより、データ中心の視点に焦点を当てます。
何千もの実験にわたって、複数のアノテーションにより、実際の基礎となるクラス分布のより良い近似が可能になることを示しています。
ハードラベルはデータのあいまいさを捉えることができず、これがモデルの信頼性の高さという一般的な問題につながる可能性があることを確認しました。
提示されたデータセット、ベンチマークベースライン、および分析に基づいて、将来に向けて複数の調査機会を作成します。
要約(オリジナル)
High-quality data is necessary for modern machine learning. However, the acquisition of such data is difficult due to noisy and ambiguous annotations of humans. The aggregation of such annotations to determine the label of an image leads to a lower data quality. We propose a data-centric image classification benchmark with nine real-world datasets and multiple annotations per image to investigate and quantify the impact of such data quality issues. We focus on a data-centric perspective by asking how we could improve the data quality. Across thousands of experiments, we show that multiple annotations allow a better approximation of the real underlying class distribution. We identify that hard labels can not capture the ambiguity of the data and this might lead to the common issue of overconfident models. Based on the presented datasets, benchmark baselines, and analysis, we create multiple research opportunities for the future.
arxiv情報
著者 | Lars Schmarje,Vasco Grossmann,Claudius Zelenka,Sabine Dippel,Rainer Kiko,Mariusz Oszust,Matti Pastell,Jenny Stracke,Anna Valros,Nina Volkmann,Reinahrd Koch |
発行日 | 2022-07-13 14:17:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google