要約
固有表現認識は、現実世界のオブジェクトに名前を付けるテキスト内の部分文字列を抽出し、そのタイプ (たとえば、オブジェクトが人を指すのか組織を指すのか) を判断することを目的としています。
この調査では、まず、他の調査ではあまり取り上げられていない、Transformer ベースの手法や大規模言語モデル (LLM) の進歩など、最近の一般的なアプローチの概要を紹介します。
さらに、強化学習とグラフベースのアプローチについて説明し、NER のパフォーマンス向上におけるそれらの役割を強調します。
2 番目に、アノテーションが少ないデータセット向けに設計された手法に焦点を当てます。
3 番目に、異なる特性 (ドメイン、サイズ、クラス数に関して) を持つさまざまなデータセットに対する主要な NER 実装のパフォーマンスを評価します。
したがって、これまで一緒に検討されたことのないアルゴリズムを詳細に比較します。
私たちの実験により、データセットの特性が比較するメソッドの動作にどのような影響を与えるかが明らかになりました。
要約(オリジナル)
Named Entity Recognition seeks to extract substrings within a text that name real-world objects and to determine their type (for example, whether they refer to persons or organizations). In this survey, we first present an overview of recent popular approaches, including advancements in Transformer-based methods and Large Language Models (LLMs) that have not had much coverage in other surveys. In addition, we discuss reinforcement learning and graph-based approaches, highlighting their role in enhancing NER performance. Second, we focus on methods designed for datasets with scarce annotations. Third, we evaluate the performance of the main NER implementations on a variety of datasets with differing characteristics (as regards their domain, their size, and their number of classes). We thus provide a deep comparison of algorithms that have never been considered together. Our experiments shed some light on how the characteristics of datasets affect the behavior of the methods we compare.
arxiv情報
著者 | Imed Keraghel,Stanislas Morbieu,Mohamed Nadif |
発行日 | 2024-12-20 15:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google