要約
固有表現認識は、現実世界のオブジェクトに名前を付けるテキスト内の部分文字列を抽出し、そのタイプ (たとえば、オブジェクトが人を指すのか組織を指すのか) を判断することを目的としています。
この調査では、まず最近の一般的なアプローチの概要を示しますが、他の調査ではあまり取り上げられていない大規模言語モデル (LLM) を含む、グラフベースおよびトランスフォーマーベースの手法についても検討します。
2 番目に、アノテーションが少ないデータセット向けに設計された手法に焦点を当てます。
3 番目に、異なる特性 (ドメイン、サイズ、クラス数に関して) を持つさまざまなデータセットに対する主要な NER 実装のパフォーマンスを評価します。
したがって、一緒に検討されることのないアルゴリズムの詳細な比較を提供します。
私たちの実験により、データセットの特性が比較するメソッドの動作にどのような影響を与えるかが明らかになりました。
要約(オリジナル)
Named Entity Recognition seeks to extract substrings within a text that name real-world objects and to determine their type (for example, whether they refer to persons or organizations). In this survey, we first present an overview of recent popular approaches, but we also look at graph- and transformer- based methods including Large Language Models (LLMs) that have not had much coverage in other surveys. Second, we focus on methods designed for datasets with scarce annotations. Third, we evaluate the performance of the main NER implementations on a variety of datasets with differing characteristics (as regards their domain, their size, and their number of classes). We thus provide a deep comparison of algorithms that are never considered together. Our experiments shed some light on how the characteristics of datasets affect the behavior of the methods that we compare.
arxiv情報
著者 | Imed Keraghel,Stanislas Morbieu,Mohamed Nadif |
発行日 | 2024-01-19 17:21:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google