A data-centric approach for improving ambiguous labels with combined semi-supervised classification and clustering

要約

ディープラーニングの分野で新しい損失関数とアーキテクチャを開発するには、一貫して高いデータ品質が不可欠です。
そのようなデータやラベルの存在は通常推定されますが、高品質のデータセットを取得することは依然として多くの場合大きな問題です。
実際のデータセットでは、アノテーターによる主観的な注釈が原因で、あいまいなラベルに遭遇することがよくあります。
私たちのデータ中心のアプローチでは、ニューラルネットワークでこの問題の処理を実装する代わりに、そのようなあいまいなラベルを再ラベル付けする方法を提案します。
定義上、厳密な分類では、データの実際のあいまいさを把握するのに十分ではありません。
したがって、半教師あり分類とクラスタリングを組み合わせた方法「データ中心の分類とクラスタリング(DC3)」を提案します。
画像の曖昧さを自動的に推定し、その曖昧さに応じて分類またはクラスタリングを実行します。
DC3は本質的に一般的であるため、多くの半教師あり学習(SSL)アルゴリズムに加えて使用できます。
これにより、平均して、分類のF1スコアが7.6%向上し、評価された複数のSSLアルゴリズムとデータセット全体でクラスターの内部距離が7.9%短縮されます。
最も重要なことは、DC3からの分類とクラスタリングが、そのようなあいまいなラベルの手動による改良の提案として有益であるという概念実証を提供することです。
全体として、SSLとメソッドDC3を組み合わせると、注釈プロセス中のあいまいなラベルの処理が向上する可能性があります。

要約(オリジナル)

Consistently high data quality is essential for the development of novel loss functions and architectures in the field of deep learning. The existence of such data and labels is usually presumed, while acquiring high-quality datasets is still a major issue in many cases. In real-world datasets we often encounter ambiguous labels due to subjective annotations by annotators. In our data-centric approach, we propose a method to relabel such ambiguous labels instead of implementing the handling of this issue in a neural network. A hard classification is by definition not enough to capture the real-world ambiguity of the data. Therefore, we propose our method ‘Data-Centric Classification & Clustering (DC3)’ which combines semi-supervised classification and clustering. It automatically estimates the ambiguity of an image and performs a classification or clustering depending on that ambiguity. DC3 is general in nature so that it can be used in addition to many Semi-Supervised Learning (SSL) algorithms. On average, this results in a 7.6% better F1-Score for classifications and 7.9% lower inner distance of clusters across multiple evaluated SSL algorithms and datasets. Most importantly, we give a proof-of-concept that the classifications and clusterings from DC3 are beneficial as proposals for the manual refinement of such ambiguous labels. Overall, a combination of SSL with our method DC3 can lead to better handling of ambiguous labels during the annotation process.

arxiv情報

著者 Lars Schmarje,Monty Santarossa,Simon-Martin Schröder,Claudius Zelenka,Rainer Kiko,Jenny Stracke,Nina Volkmann,Reinhard Koch
発行日 2022-07-13 15:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク