要約
大規模言語モデル(LLM)は、様々なNLPタスクにおいてSOTA性能を達成しているにもかかわらず、NERに関する性能は、教師ありベースラインを大きく下回っているのが現状である。これは、NERとLLMの2つのタスクの間にあるギャップによるもので、前者は本質的にシーケンスラベル付けタスクであるのに対し、後者はテキスト生成モデルである。 本論文では、この問題を解決するために、GPT-NERを提案する。例えば、入力テキスト「Columbus is a city」から位置情報を抽出するタスクは、「@@Columbus## is a city」というテキスト列を生成するように変換される(ここで、特殊トークン@@##は抽出するエンティティを示す)。LLMの「幻覚」問題(LLMはNULL入力をエンティティとして過信してラベル付けする傾向が強い)に効率的に対処するために、我々はLLMに、抽出されたエンティティがラベル付きエンティティタグに属するかどうかを自問するよう促す自己検証戦略を提案する。 広く採用されている5つのNERデータセットで実験を行ったところ、GPT-NERは完全教師ありのベースラインと同等の性能を達成した(これは我々が知る限り初めてのことである)。さらに重要なことは、GPT-NERが低リソースかつ少数ショットのセットアップにおいて、より高い能力を発揮することである。これは、ラベル付けされた例数が限られている実世界のNERアプリケーションにおけるGPT-NERの能力を実証している。
要約(オリジナル)
Despite the fact that large-scale Language Models (LLM) have achieved SOTA performances on a variety of NLP tasks, its performance on NER is still significantly below supervised baselines. This is due to the gap between the two tasks the NER and LLMs: the former is a sequence labeling task in nature while the latter is a text-generation model. In this paper, we propose GPT-NER to resolve this issue. GPT-NER bridges the gap by transforming the sequence labeling task to a generation task that can be easily adapted by LLMs e.g., the task of finding location entities in the input text ‘Columbus is a city’ is transformed to generate the text sequence ‘@@Columbus## is a city’, where special tokens @@## marks the entity to extract. To efficiently address the ‘hallucination’ issue of LLMs, where LLMs have a strong inclination to over-confidently label NULL inputs as entities, we propose a self-verification strategy by prompting LLMs to ask itself whether the extracted entities belong to a labeled entity tag. We conduct experiments on five widely adopted NER datasets, and GPT-NER achieves comparable performances to fully supervised baselines, which is the first time as far as we are concerned. More importantly, we find that GPT-NER exhibits a greater ability in the low-resource and few-shot setups, when the amount of training data is extremely scarce, GPT-NER performs significantly better than supervised models. This demonstrates the capabilities of GPT-NER in real-world NER applications where the number of labeled examples is limited.
arxiv情報
著者 | Shuhe Wang,Xiaofei Sun,Xiaoya Li,Rongbin Ouyang,Fei Wu,Tianwei Zhang,Jiwei Li,Guoyin Wang |
発行日 | 2023-05-12 13:27:36+00:00 |
arxivサイト | arxiv_id(pdf) |