Evaluation of LLMs on Long-tail Entity Linking in Historical Documents

要約

エンティティリンク(EL)は、自然言語処理(NLP)アプリケーションにおいて重要な役割を果たし、リファレンスナレッジベース(KB)の対応するエントリにリンクすることにより、エンティティの言及の乱用を可能にします。
彼らの深い文脈的理解能力のおかげで、LLMはELに取り組むための新しい視点を提供し、従来の方法よりも良い結果を約束します。
LLMSの印象的な一般化能力にもかかわらず、人気の低いリンクをリンクすることは、これらのエンティティがトレーニングデータと知識ベースで過小評価されることが多いため、依然として挑戦的です。
さらに、ロングテールエルタスクは研究されていない問題であり、限られた研究でLLMSを使用しています。
現在の作業では、シナリオをリンクするロングテールエンティティで、2つの一般的なLLMS、GPTとLLAMA3のパフォーマンスを評価します。
ドメイン固有の歴史的テキストからの文の手動注釈付きベンチマークであるMHERCL v0.1を使用して、LLMのパフォーマンスを、対応するエンティティとリンクのリンクリンクと関係抽出フレームワークであるRelikの識別とリンクのパフォーマンスを定量的に比較します。
私たちの予備的な実験は、LLMSがロングテールELで励みに勇気づけられることを明らかにしており、この技術がヘッドとロングテールELのギャップを埋める上で貴重な補助剤になる可能性があることを示しています。

要約(オリジナル)

Entity Linking (EL) plays a crucial role in Natural Language Processing (NLP) applications, enabling the disambiguation of entity mentions by linking them to their corresponding entries in a reference knowledge base (KB). Thanks to their deep contextual understanding capabilities, LLMs offer a new perspective to tackle EL, promising better results than traditional methods. Despite the impressive generalization capabilities of LLMs, linking less popular, long-tail entities remains challenging as these entities are often underrepresented in training data and knowledge bases. Furthermore, the long-tail EL task is an understudied problem, and limited studies address it with LLMs. In the present work, we assess the performance of two popular LLMs, GPT and LLama3, in a long-tail entity linking scenario. Using MHERCL v0.1, a manually annotated benchmark of sentences from domain-specific historical texts, we quantitatively compare the performance of LLMs in identifying and linking entities to their corresponding Wikidata entries against that of ReLiK, a state-of-the-art Entity Linking and Relation Extraction framework. Our preliminary experiments reveal that LLMs perform encouragingly well in long-tail EL, indicating that this technology can be a valuable adjunct in filling the gap between head and long-tail EL.

arxiv情報

著者 Marta Boscariol,Luana Bulla,Lia Draetta,Beatrice Fiumanò,Emanuele Lenzi,Leonardo Piano
発行日 2025-05-06 12:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク