CLEANANERCorp: Identifying and Correcting Incorrect Labels in the ANERcorp Dataset

要約

ラベル エラーは、機械学習データセット、特に固有表現認識などのタスクでよくある問題です。
このようなラベル エラーは、モデルのトレーニングに悪影響を及ぼし、評価結果に影響を与え、モデルのパフォーマンスの不正確な評価につながる可能性があります。
この研究では、広く採用されているアラビア語 NER ベンチマーク データセット (ANERcorp) の 1 つを詳しく調査し、かなりの数のアノテーション エラー、ラベルの欠落、および不一致を発見しました。
したがって、この研究では、これらのエラーを理解して修正し、CLEANANERCorp という名前のデータセットのよりクリーンなバージョンを提案するために実証的研究を実施しました。
CLEANANERCorp は、より正確で一貫したベンチマークとして研究コミュニティに提供します。

要約(オリジナル)

Label errors are a common issue in machine learning datasets, particularly for tasks such as Named Entity Recognition. Such label errors might hurt model training, affect evaluation results, and lead to an inaccurate assessment of model performance. In this study, we dived deep into one of the widely adopted Arabic NER benchmark datasets (ANERcorp) and found a significant number of annotation errors, missing labels, and inconsistencies. Therefore, in this study, we conducted empirical research to understand these errors, correct them and propose a cleaner version of the dataset named CLEANANERCorp. CLEANANERCorp will serve the research community as a more accurate and consistent benchmark.

arxiv情報

著者 Mashael Al-Duwais,Hend Al-Khalifa,Abdulmalik Al-Salman
発行日 2024-08-22 12:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク