Familiarity: Better Evaluation of Zero-Shot Named Entity Recognition by Quantifying Label Shifts in Synthetic Training Data

要約

ゼロショット固有表現認識 (NER) は、トレーニング例なしで特定のタイプ (「人」や「医学」など) の固有表現を検出するタスクです。
現在の研究では、ゼロショット NER モデルをトレーニングするために、数万の異なるエンティティ タイプをカバーするために自動的に生成される大規模な合成データセットへの依存がますます高まっています。
ただし、この論文では、これらの合成データセットには、標準の評価ベンチマークのものと意味的に非常に類似した (または同じである) エンティティ タイプが含まれていることが多いことがわかりました。
この重複のため、報告されたゼロショット NER の F1 スコアは、これらのアプローチの真の能力を過大評価していると主張します。
さらに、現在の評価設定では、トレーニング データセットと評価データセット間のラベルのシフト (つまり、ラベルの類似性) が定量化されていないため、ゼロショット能力の不完全な全体像が得られると我々は主張します。
これらの問題に対処するために、ラベル シフトの推定値を提供するために、トレーニングと評価におけるエンティティ タイプ間の意味論的な類似性と、トレーニング データ内のエンティティ タイプの頻度の両方を捕捉する新しいメトリクスである Familiarity を提案します。
これにより、研究者はカスタム合成トレーニング データセットを使用する際に、報告されたゼロショット NER スコアを状況に応じて解釈することができます。
さらに、研究者は、ゼロショット NER のきめ細かい分析のために、さまざまな転写の困難さの評価セットアップを生成できます。

要約(オリジナル)

Zero-shot named entity recognition (NER) is the task of detecting named entities of specific types (such as ‘Person’ or ‘Medicine’) without any training examples. Current research increasingly relies on large synthetic datasets, automatically generated to cover tens of thousands of distinct entity types, to train zero-shot NER models. However, in this paper, we find that these synthetic datasets often contain entity types that are semantically highly similar to (or even the same as) those in standard evaluation benchmarks. Because of this overlap, we argue that reported F1 scores for zero-shot NER overestimate the true capabilities of these approaches. Further, we argue that current evaluation setups provide an incomplete picture of zero-shot abilities since they do not quantify the label shift (i.e., the similarity of labels) between training and evaluation datasets. To address these issues, we propose Familiarity, a novel metric that captures both the semantic similarity between entity types in training and evaluation, as well as their frequency in the training data, to provide an estimate of label shift. It allows researchers to contextualize reported zero-shot NER scores when using custom synthetic training datasets. Further, it enables researchers to generate evaluation setups of various transfer difficulties for fine-grained analysis of zero-shot NER.

arxiv情報

著者 Jonas Golde,Patrick Haller,Max Ploner,Fabio Barth,Nicolaas Jedema,Alan Akbik
発行日 2024-12-13 13:06:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク