A data-centric approach for improving ambiguous labels with combined semi-supervised classification and clustering

要約

深層学習の分野において、新しい損失関数やアーキテクチャを開発するためには、一貫して高いデータ品質が不可欠である。通常、そのようなデータやラベルの存在は推定されていますが、一方で高品質なデータセットの取得は多くの場合、依然として大きな課題となっています。実世界のデータセットでは、アノテーターによる主観的なアノテーションに起因する曖昧なラベルにしばしば遭遇します。私たちのデータセントリックなアプローチでは、このような曖昧なラベルをニューラルネットワークで処理するのではなく、再ラベル化する方法を提案します。ハードな分類では、現実のデータの曖昧さを表現することはできない。そこで、我々は半教師付き分類とクラスタリングを組み合わせた手法’Data-Centric Classification & Clustering (DC3)’を提案する。DC3は、画像の曖昧さを自動的に推定し、その曖昧さに応じて分類やクラスタリングを行う。DC3は一般的なものなので、多くの半教師付き学習(SSL)アルゴリズムに追加して使用することができる。この結果、複数のSSLアルゴリズムとデータセットにおいて、平均して分類のF1-Scoreが7.6%向上し、クラスタの内部距離が7.9%減少する。最も重要なことは、DC3による分類とクラスタリングが、このような曖昧なラベルを手動で改良するための提案として有益であるという概念実証を行うことである。全体として、SSLと我々の手法DC3を組み合わせることで、アノテーションプロセスにおける曖昧なラベルの取り扱いを改善することが可能である。

要約(オリジナル)

Consistently high data quality is essential for the development of novel loss functions and architectures in the field of deep learning. The existence of such data and labels is usually presumed, while acquiring high-quality datasets is still a major issue in many cases. In real-world datasets we often encounter ambiguous labels due to subjective annotations by annotators. In our data-centric approach, we propose a method to relabel such ambiguous labels instead of implementing the handling of this issue in a neural network. A hard classification is by definition not enough to capture the real-world ambiguity of the data. Therefore, we propose our method ‘Data-Centric Classification & Clustering (DC3)’ which combines semi-supervised classification and clustering. It automatically estimates the ambiguity of an image and performs a classification or clustering depending on that ambiguity. DC3 is general in nature so that it can be used in addition to many Semi-Supervised Learning (SSL) algorithms. On average, this results in a 7.6% better F1-Score for classifications and 7.9% lower inner distance of clusters across multiple evaluated SSL algorithms and datasets. Most importantly, we give a proof-of-concept that the classifications and clusterings from DC3 are beneficial as proposals for the manual refinement of such ambiguous labels. Overall, a combination of SSL with our method DC3 can lead to better handling of ambiguous labels during the annotation process.

arxiv情報

著者 Lars Schmarje,Monty Santarossa,Simon-Martin Schröder,Claudius Zelenka,Rainer Kiko,Jenny Stracke,Nina Volkmann,Reinhard Koch
発行日 2022-10-06 08:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク