要約
固有表現認識 (NER) は、構造化された情報を識別することを目的とした重要なタスクです。構造化された情報には、多くの場合、複雑で専門用語が多く、変動性が高くなります。
正確で信頼性の高い NER により、重要な情報の抽出と分析が容易になります。
ただし、英語以外の NER は、データに注釈を付けるために高度な専門知識、時間、費用が必要となるため、利用可能なデータが限られているため困難です。
この論文では、限られたデータを使用して、フランス語の NER モデルのパフォーマンスを向上させるためのモデル構造、コーパス注釈スキーム、データ拡張技術などのさまざまな要素を調査します。
私たちの実験は、これらのアプローチがモデルの F1 スコアを元の CRF スコア 62.41 から 79.39 に大幅に改善できることを示しています。
私たちの調査結果は、さまざまな外部要因を考慮し、これらの手法を組み合わせることが、データ サイズが制限されている場合の NER パフォーマンスを向上させるための有望なアプローチであることを示唆しています。
要約(オリジナル)
Named entity recognition (NER) is a crucial task that aims to identify structured information, which is often replete with complex, technical terms and a high degree of variability. Accurate and reliable NER can facilitate the extraction and analysis of important information. However, NER for other than English is challenging due to limited data availability, as the high expertise, time, and expenses are required to annotate its data. In this paper, by using the limited data, we explore various factors including model structure, corpus annotation scheme and data augmentation techniques to improve the performance of a NER model for French. Our experiments demonstrate that these approaches can significantly improve the model’s F1 score from original CRF score of 62.41 to 79.39. Our findings suggest that considering different extrinsic factors and combining these techniques is a promising approach for improving NER performance where the size of data is limited.
arxiv情報
著者 | Grace Yang,Zhiyi Li,Yandong Liu,Jungyeul Park |
発行日 | 2024-10-16 17:12:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google