Yes but.. Can ChatGPT Identify Entities in Historical Documents?

要約

大規模言語モデル (LLM) は数年前から活用されており、最新のドキュメントからエンティティを認識する際に最先端のパフォーマンスが得られています。
過去数か月間、会話型エージェント ChatGPT は、もっともらしい回答を生成する能力があるため、科学界と一般の人々に多くの関心を「促して」きました。
このホワイト ペーパーでは、一次情報源 (歴史的な新聞や古典的な論評など) の名前付きエンティティの認識と分類 (NERC) タスクでゼロ ショット方式でそれを調査し、現状と比較することによって、この能力を調査します。
-art LM ベースのシステム。
私たちの調査結果は、エンティティ アノテーション ガイドラインの一貫性、エンティティの複雑さ、およびコード スイッチングからプロンプトの特異性に至るまで、歴史的なテキストでエンティティを識別する際のいくつかの欠点を示しています。
さらに、予想通り、歴史的アーカイブが一般に (つまりインターネット上で) アクセスできないことも、そのパフォーマンスに影響を与えます。

要約(オリジナル)

Large language models (LLMs) have been leveraged for several years now, obtaining state-of-the-art performance in recognizing entities from modern documents. For the last few months, the conversational agent ChatGPT has ‘prompted’ a lot of interest in the scientific community and public due to its capacity of generating plausible-sounding answers. In this paper, we explore this ability by probing it in the named entity recognition and classification (NERC) task in primary sources (e.g., historical newspapers and classical commentaries) in a zero-shot manner and by comparing it with state-of-the-art LM-based systems. Our findings indicate several shortcomings in identifying entities in historical text that range from the consistency of entity annotation guidelines, entity complexity, and code-switching, to the specificity of prompting. Moreover, as expected, the inaccessibility of historical archives to the public (and thus on the Internet) also impacts its performance.

arxiv情報

著者 Carlos-Emiliano González-Gallardo,Emanuela Boros,Nancy Girdhar,Ahmed Hamdi,Jose G. Moreno,Antoine Doucet
発行日 2023-03-30 12:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.IR パーマリンク