Beyond Hard Labels: Investigating data label distributions

要約

高品質のデータは、現代の機械学習の重要な側面です。
ただし、人間によって生成されたラベルには、ラベルのノイズやクラスのあいまいさなどの問題があります。
これらの固有の不正確さの存在下で、ハードラベルが基礎となるグラウンドトゥルース分布を表すのに十分であるかどうかという問題を提起します。
したがって、合成データセットと実世界のデータセットについて、ハードラベルとソフトラベルを使用した学習の不一致を定量的および定性的に比較します。
ソフトラベルを適用すると、パフォーマンスが向上し、内部フィーチャスペースの構造がより規則的になることを示します。

要約(オリジナル)

High-quality data is a key aspect of modern machine learning. However, labels generated by humans suffer from issues like label noise and class ambiguities. We raise the question of whether hard labels are sufficient to represent the underlying ground truth distribution in the presence of these inherent imprecision. Therefore, we compare the disparity of learning with hard and soft labels quantitatively and qualitatively for a synthetic and a real-world dataset. We show that the application of soft labels leads to improved performance and yields a more regular structure of the internal feature space.

arxiv情報

著者 Vasco Grossmann,Lars Schmarje,Reinhard Koch
発行日 2022-07-13 14:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク