Generating the Ground Truth: Synthetic Data for Label Noise Research


実際の分類タスクのほとんどは、ある程度ラベル ノイズの影響を受けます。
ラベル ノイズの研究では、通常、ノイズの多い、または複雑でないシミュレーション データがベースラインとして受け入れられ、そこに既知の特性を持つ追加のノイズが注入されます。
このホワイトペーパーでは、前述の方法論を改善することを目的としたフレームワークである SYNLABEL を提案します。
関数を事前に指定または学習し、それをラベルの生成元となるグラウンド トゥルース関数として定義することで、実際のデータに基づいたノイズのないデータセットを作成できます。
さらに、関数ドメインで選択された特徴の多数の値をリサンプリングし、関数を評価し、結果のラベルを集約することにより、各データ ポイントにソフト ラベルまたはラベル分布を割り当てることができます。
このような分布により、ラベル ノイズの直接注入と定量化が可能になります。
このフレームワークがどのように適用できるか、ラベル ノイズの定量化がどのように可能になるか、既存の方法論をどのように改善できるかを説明します。


Most real-world classification tasks suffer from label noise to some extent. Such noise in the data adversely affects the generalization error of learned models and complicates the evaluation of noise-handling methods, as their performance cannot be accurately measured without clean labels. In label noise research, typically either noisy or incomplex simulated data are accepted as a baseline, into which additional noise with known properties is injected. In this paper, we propose SYNLABEL, a framework that aims to improve upon the aforementioned methodologies. It allows for creating a noiseless dataset informed by real data, by either pre-specifying or learning a function and defining it as the ground truth function from which labels are generated. Furthermore, by resampling a number of values for selected features in the function domain, evaluating the function and aggregating the resulting labels, each data point can be assigned a soft label or label distribution. Such distributions allow for direct injection and quantification of label noise. The generated datasets serve as a clean baseline of adjustable complexity into which different types of noise may be introduced. We illustrate how the framework can be applied, how it enables quantification of label noise and how it improves over existing methodologies.


著者 Sjoerd de Vries,Dirk Thierens
発行日 2023-09-08 13:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク