要約
タイトル:大規模言語モデルを用いたNamed Entity Recognition(GPT-NER)
要約:
– 大規模言語モデル(LLM)はNLPの様々なタスクで最先端の性能を達成しているが、Named Entity Recognition(NER)の性能は教師ありモデルのベースラインに比べてまだ低い。
– その理由は、NERは本質的にはシーケンスラベリングタスクであり、LLMはテキスト生成モデルであるため、2つのタスクの間にギャップがあるため。
– この論文では、GPT-NERを提案して、この問題を解決する。
– GPT-NERは、シーケンスラベリングタスクを生成タスクに変換し、LLMが容易に適応できるようにし、入力テキストの場所エンティティを検出するタスクを、特別なトークン@@##でエンティティを抽出できるように変換する。
– LLMがNULL入力を過剰にエンティティラベル付けする傾向がある「幻想」の問題に効果的に対処するために、自己検証戦略を提案する。
– 私たちは5つの広く採用されているNERデータセットで実験を行い、GPT-NERが完全に教師ありモデルのベースラインと同等の性能を発揮しました。これは、私たちの知る限り初めてのことです。
– さらに、訓練データが極端に少ない場合、GPT-NERは少ないデータでより良い性能を発揮し、教師ありモデルよりも優れた能力を示しました。これは、ラベル付けされた例の数が限られている実世界のNERアプリケーションでのGPT-NERの可能性を示しています。
要約(オリジナル)
Despite the fact that large-scale Language Models (LLM) have achieved SOTA performances on a variety of NLP tasks, its performance on NER is still significantly below supervised baselines. This is due to the gap between the two tasks the NER and LLMs: the former is a sequence labeling task in nature while the latter is a text-generation model. In this paper, we propose GPT-NER to resolve this issue. GPT-NER bridges the gap by transforming the sequence labeling task to a generation task that can be easily adapted by LLMs e.g., the task of finding location entities in the input text ‘Columbus is a city’ is transformed to generate the text sequence ‘@@Columbus## is a city’, where special tokens @@## marks the entity to extract. To efficiently address the ‘hallucination’ issue of LLMs, where LLMs have a strong inclination to over-confidently label NULL inputs as entities, we propose a self-verification strategy by prompting LLMs to ask itself whether the extracted entities belong to a labeled entity tag. We conduct experiments on five widely adopted NER datasets, and GPT-NER achieves comparable performances to fully supervised baselines, which is the first time as far as we are concerned. More importantly, we find that GPT-NER exhibits a greater ability in the low-resource and few-shot setups, when the amount of training data is extremely scarce, GPT-NER performs significantly better than supervised models. This demonstrates the capabilities of GPT-NER in real-world NER applications where the number of labeled examples is limited.
arxiv情報
著者 | Shuhe Wang,Xiaofei Sun,Xiaoya Li,Rongbin Ouyang,Fei Wu,Tianwei Zhang,Jiwei Li,Guoyin Wang |
発行日 | 2023-04-26 08:06:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI