NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition

要約

固有表現認識 (NER) に利用可能なトレーニング データには、多くの場合、エンティティ タイプとエンティティ境界に対する誤ったラベルがかなりの割合で含まれています。
このようなラベル ノイズは教師あり学習に課題をもたらし、モデルの品質を大幅に低下させる可能性があります。
これに対処するために、以前の研究では、部分的に間違ったラベルを持つデータから学習できる、ノイズに強いさまざまな学習アプローチが提案されました。
これらのアプローチは通常、クリーンなデータセット内のラベルが自動的に破損するシミュレートされたノイズを使用して評価されます。
ただし、この論文で示したように、これにより非現実的なノイズが発生し、人的ミスや半自動の注釈によって引き起こされる実際のノイズよりもはるかに扱いやすくなります。
さまざまな種類の実際のノイズの影響を研究できるようにするために、エキスパート エラー、クラウドソーシング エラー、自動注釈エラー、LLM エラーを含む 6 種類の実際のノイズで破損したクリーンなトレーニング データで構成される NER ベンチマークである NoiseBench を導入します。
我々は、実際のノイズがシミュレートされたノイズよりもはるかに困難であることを示す分析を提示し、ノイズに強い学習のための現在の最先端のモデルが理論的に達成可能な上限をはるかに下回っていることを示します。
NoiseBench を研究コミュニティにリリースします。

要約(オリジナル)

Available training data for named entity recognition (NER) often contains a significant percentage of incorrect labels for entity types and entity boundaries. Such label noise poses challenges for supervised learning and may significantly deteriorate model quality. To address this, prior work proposed various noise-robust learning approaches capable of learning from data with partially incorrect labels. These approaches are typically evaluated using simulated noise where the labels in a clean dataset are automatically corrupted. However, as we show in this paper, this leads to unrealistic noise that is far easier to handle than real noise caused by human error or semi-automatic annotation. To enable the study of the impact of various types of real noise, we introduce NoiseBench, an NER benchmark consisting of clean training data corrupted with 6 types of real noise, including expert errors, crowdsourcing errors, automatic annotation errors and LLM errors. We present an analysis that shows that real noise is significantly more challenging than simulated noise, and show that current state-of-the-art models for noise-robust learning fall far short of their theoretically achievable upper bound. We release NoiseBench to the research community.

arxiv情報

著者 Elena Merdjanovska,Ansar Aynetdinov,Alan Akbik
発行日 2024-05-13 10:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク