要約
最先端のパフォーマンスを達成するには、大規模で高品質の注釈付きデータ、つまり蓄積にコストと時間がかかる資産で NER モデルをトレーニングする必要があります。
対照的に、現実世界のアプリケーションでは、費用対効果の高い代替手段として、クラウドソーシングを介した専門家ではないアノテーターや、遠隔監視を介した外部知識ベースを介した、大量の低品質のラベル付きデータに頼ることがよくあります。
ただし、これらの注釈方法ではラベルにノイズが多くなり、パフォーマンスが著しく低下します。
したがって、クリーンなインスタンスの少数のセットからのガイダンスを使用して、ノイズの多い NER データのノイズを除去することを提案します。
メインの NER モデルとともに、弁別器モデルをトレーニングし、その出力を使用してサンプルの重みを再調整します。
弁別器は、さまざまな弁別プロンプトを使用してスパン エラーとカテゴリ エラーの両方を検出できます。
パブリッククラウドソーシングと遠隔監視データセットの結果は、提案された方法が小さなガイダンスセットで一貫してパフォーマンスを向上させることができることを示しています。
要約(オリジナル)
To achieve state-of-the-art performance, one still needs to train NER models on large-scale, high-quality annotated data, an asset that is both costly and time-intensive to accumulate. In contrast, real-world applications often resort to massive low-quality labeled data through non-expert annotators via crowdsourcing and external knowledge bases via distant supervision as a cost-effective alternative. However, these annotation methods result in noisy labels, which in turn lead to a notable decline in performance. Hence, we propose to denoise the noisy NER data with guidance from a small set of clean instances. Along with the main NER model we train a discriminator model and use its outputs to recalibrate the sample weights. The discriminator is capable of detecting both span and category errors with different discriminative prompts. Results on public crowdsourcing and distant supervision datasets show that the proposed method can consistently improve performance with a small guidance set.
arxiv情報
著者 | Zhendong Chu,Ruiyi Zhang,Tong Yu,Rajiv Jain,Vlad I Morariu,Jiuxiang Gu,Ani Nenkova |
発行日 | 2023-10-25 17:23:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google