Is one annotation enough? A data-centric image classification benchmark for noisy and ambiguous label estimation

要約

現代の機械学習には、高品質なデータが必要である。しかし、人間によるノイズの多い曖昧なアノテーションのために、そのようなデータの取得は困難である。このようなアノテーションを集約して画像のラベルを決定することは、データの質の低下につながる。我々は、研究者がこのようなデータ品質の問題の影響を調査し定量化できるように、10個の実世界データセットと画像ごとの複数のアノテーションを用いたデータ中心画像分類ベンチマークを提案する。このベンチマークでは、様々なアルゴリズムと多様なデータセットに新しい手法を適用することで、アノテーションコストと(半)教師あり手法が画像分類のデータ品質に与える影響を調査することができる。本ベンチマークでは、第1フェーズでデータラベルの改善手法を用い、第2フェーズで固定評価モデルを用いる2フェーズアプローチを採用している。これにより、入力ラベル付けの労力と(半)教師ありアルゴリズムの性能の関係を測定し、効果的なモデル学習のためにどのようにラベルを作成すべきかをより深く理解することができるようになりました。何千もの実験を通して、我々は1つのアノテーションでは不十分であること、そして複数のアノテーションを含めることで実際のクラス分布をよりよく近似できることを示す。我々は、ハードラベルはデータの曖昧さを捉えることができず、これがモデルの過信という一般的な問題につながる可能性があることを明らかにした。提示されたデータセット、ベンチマークされた手法、分析に基づき、ラベルノイズ推定アプローチ、データアノテーションスキーム、現実的な(半)教師あり学習、より信頼性の高い画像収集の改善に向け、将来的に複数の研究機会を創出することが可能である。

要約(オリジナル)

High-quality data is necessary for modern machine learning. However, the acquisition of such data is difficult due to noisy and ambiguous annotations of humans. The aggregation of such annotations to determine the label of an image leads to a lower data quality. We propose a data-centric image classification benchmark with ten real-world datasets and multiple annotations per image to allow researchers to investigate and quantify the impact of such data quality issues. With the benchmark we can study the impact of annotation costs and (semi-)supervised methods on the data quality for image classification by applying a novel methodology to a range of different algorithms and diverse datasets. Our benchmark uses a two-phase approach via a data label improvement method in the first phase and a fixed evaluation model in the second phase. Thereby, we give a measure for the relation between the input labeling effort and the performance of (semi-)supervised algorithms to enable a deeper insight into how labels should be created for effective model training. Across thousands of experiments, we show that one annotation is not enough and that the inclusion of multiple annotations allows for a better approximation of the real underlying class distribution. We identify that hard labels can not capture the ambiguity of the data and this might lead to the common issue of overconfident models. Based on the presented datasets, benchmarked methods, and analysis, we create multiple research opportunities for the future directed at the improvement of label noise estimation approaches, data annotation schemes, realistic (semi-)supervised learning, or more reliable image collection.

arxiv情報

著者 Lars Schmarje,Vasco Grossmann,Claudius Zelenka,Sabine Dippel,Rainer Kiko,Mariusz Oszust,Matti Pastell,Jenny Stracke,Anna Valros,Nina Volkmann,Reinhard Koch
発行日 2022-11-04 14:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク