要約
タイトル:GPT-NER: 大規模言語モデルを用いた固有表現抽出
要約:
– 大規模言語モデル(LLM)は様々な自然言語処理タスクでSOTAの成績を残しているが、固有表現抽出(NER)においては教師あり学習モデルに比べて成績が著しく低い。
– これはNERとLLMのタスクにある差異から来ており、NERは単語列に対するラベリングタスクであるが、LLMはテキスト生成モデルであるためである。
– この課題を解決するため、本論文ではGPT-NERを提案する。GPT-NERは、ラベリングタスクを生成タスクに変換することで、LLMにより簡単に適応できるようにし、例えば入力テキストの中から場所を示す固有表現を見つけるタスクは、特殊トークン@@##がエンティティを示すように変換される。
– LLMの「幻想」問題を効率的に解決するために、LLMがNULL入力をエンティティとして自信を持ってラベル付けする傾向に対応する自己検証戦略を提案する。
– 5つの広く使用されているNERデータセットで実験を行い、GPT-NERは完全な教師ありモデルに比肩するパフォーマンスを発揮する。さらに、GPT-NERはマルチショットや少量の訓練データの場合において、教師ありモデルよりも優れた性能を発揮することが示された。これは、ラベル付き例が限られている場合において、GPT-NERの現実のNERアプリケーションにおける能力を証明している。
要約(オリジナル)
Despite the fact that large-scale Language Models (LLM) have achieved SOTA performances on a variety of NLP tasks, its performance on NER is still significantly below supervised baselines. This is due to the gap between the two tasks the NER and LLMs: the former is a sequence labeling task in nature while the latter is a text-generation model. In this paper, we propose GPT-NER to resolve this issue. GPT-NER bridges the gap by transforming the sequence labeling task to a generation task that can be easily adapted by LLMs e.g., the task of finding location entities in the input text ‘Columbus is a city’ is transformed to generate the text sequence ‘@@Columbus## is a city’, where special tokens @@## marks the entity to extract. To efficiently address the ‘hallucination’ issue of LLMs, where LLMs have a strong inclination to over-confidently label NULL inputs as entities, we propose a self-verification strategy by prompting LLMs to ask itself whether the extracted entities belong to a labeled entity tag. We conduct experiments on five widely adopted NER datasets, and GPT-NER achieves comparable performances to fully supervised baselines, which is the first time as far as we are concerned. More importantly, we find that GPT-NER exhibits a greater ability in the low-resource and few-shot setups, when the amount of training data is extremely scarce, GPT-NER performs significantly better than supervised models. This demonstrates the capabilities of GPT-NER in real-world NER applications where the number of labeled examples is limited.
arxiv情報
著者 | Shuhe Wang,Xiaofei Sun,Xiaoya Li,Rongbin Ouyang,Fei Wu,Tianwei Zhang,Jiwei Li,Guoyin Wang |
発行日 | 2023-04-20 16:17:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI