要約
最新の固有表現認識システムは、より大規模で強力なニューラル モデルの時代において、パフォーマンスを着実に向上させてきました。
しかし、過去数年間で、最先端技術はベンチマークの CoNLL-03 英語データセットで再び頭打ちになったようです。
このペーパーでは、最高のパフォーマンスを誇る NER モデルのテスト出力を深く掘り下げ、テスト セットに新しいドキュメント レベルのアノテーションを導入することでパフォーマンスの詳細な評価を実施します。
私たちは、NER の真の最先端技術を解釈し、今後の作業を導くために、エラーを分類することで F1 スコアを超えています。
テスト セットのさまざまな欠陥を修正するためのこれまでの試みをレビューし、体系的で最も一般的なエラーに対処し、低ノイズで解釈可能なエラー分析を可能にする、テスト セットの新しい修正バージョンである CoNLL# を紹介します。
要約(オリジナル)
Modern named entity recognition systems have steadily improved performance in the age of larger and more powerful neural models. However, over the past several years, the state-of-the-art has seemingly hit another plateau on the benchmark CoNLL-03 English dataset. In this paper, we perform a deep dive into the test outputs of the highest-performing NER models, conducting a fine-grained evaluation of their performance by introducing new document-level annotations on the test set. We go beyond F1 scores by categorizing errors in order to interpret the true state of the art for NER and guide future work. We review previous attempts at correcting the various flaws of the test set and introduce CoNLL#, a new corrected version of the test set that addresses its systematic and most prevalent errors, allowing for low-noise, interpretable error analysis.
arxiv情報
著者 | Andrew Rueda,Elena Álvarez Mellado,Constantine Lignos |
発行日 | 2024-05-20 08:16:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google