Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?

要約

CoNLL-2003 英語の固有表現認識 (NER) データセットは、ほぼ 20 年間、NER モデルのトレーニングと評価に広く使用されてきました。
ただし、この 20 年前のデータでトレーニングされ、同じテスト セットを使用して数十年かけて開発されたモデルが、最新のデータに適用したときにどの程度優れたパフォーマンスを発揮するかは不明です。
この論文では、CoNLL-2003 でトレーニングされた 20 を超える異なるモデルの一般化を評価し、NER モデルが非常に異なる一般化を持つことを示します。
驚くべきことに、RoBERTa や T5 などの事前トレーニング済みの Transformer では、数十年前のデータを使用して微調整した場合でも、パフォーマンスが低下するという証拠は見つかりませんでした。
私たちは、一部のモデルが新しいデータに対してうまく一般化するのに他のモデルはそうでない理由を調査し、テストの再利用による時間的ドリフトと過学習の影響を解きほぐすことを試みます。
私たちの分析では、ほとんどの劣化はトレーニング前のコーパスと下流のテスト セットの間の時間的な不一致によるものであることが示唆されています。
適切な一般化には、微調整データの量に加えて、モデル アーキテクチャ、パラメーターの数、事前トレーニング コーパスの期間という 4 つの要素が重要であることがわかりました。
NER モデルはオリジナルの CoNLL-2003 テスト セットを改善しただけでなく、最新のデータでもさらに改善しているため、現在の評価方法はある意味で過去 20 年間の NER の進歩を過小評価していると考えられます。
データセットは https://github.com/ShuhengL/acl2023_conllpp にあります。

要約(オリジナル)

The CoNLL-2003 English named entity recognition (NER) dataset has been widely used to train and evaluate NER models for almost 20 years. However, it is unclear how well models that are trained on this 20-year-old data and developed over a period of decades using the same test set will perform when applied on modern data. In this paper, we evaluate the generalization of over 20 different models trained on CoNLL-2003, and show that NER models have very different generalization. Surprisingly, we find no evidence of performance degradation in pre-trained Transformers, such as RoBERTa and T5, even when fine-tuned using decades-old data. We investigate why some models generalize well to new data while others do not, and attempt to disentangle the effects of temporal drift and overfitting due to test reuse. Our analysis suggests that most deterioration is due to temporal mismatch between the pre-training corpora and the downstream test sets. We found that four factors are important for good generalization: model architecture, number of parameters, time period of the pre-training corpus, in addition to the amount of fine-tuning data. We suggest current evaluation methods have, in some sense, underestimated progress on NER over the past 20 years, as NER models have not only improved on the original CoNLL-2003 test set, but improved even more on modern data. Our datasets can be found at https://github.com/ShuhengL/acl2023_conllpp.

arxiv情報

著者 Shuheng Liu,Alan Ritter
発行日 2023-07-12 02:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク