LLM-DER:A Named Entity Recognition Method Based on Large Language Models for Chinese Coal Chemical Domain

要約

ドメイン固有の固有表現認識 (NER) は、ドメイン固有のエンティティとそのカテゴリを認識することを目的としており、ドメイン ナレッジ グラフの構築に重要なサポートを提供します。
現在、深層学習ベースの手法が広く使用されており、NER タスクでは効果的ですが、大規模なラベル付きデータに依存しているためです。
その結果、特定の領域におけるラベル付きデータの不足により、その応用が制限されることになります。そのため、多くの研究で少数ショット法の導入が開始され、一定の成果が得られました。
しかし、特定のドメインのエンティティ構造は複雑であることが多く、現在の少数ショット手法は複雑な機能を持つ NER タスクに適応することが困難です。中国の石炭化学産業ドメインを例に挙げると、複数のエンティティが共有する複雑な構造が存在します。
単一のエンティティと、同じエンティティのペアに対する複数の関係があり、サンプルが少ない条件下で NER タスクに影響します。この論文では、大規模言語モデル (LLM) ベースのエンティティ認識フレームワーク LLM-DER を提案します。
中国語のドメイン固有エンティティ認識問題。LLM を介してエンティティ タイプを含む関係のリストを生成し、誤って認識されたエンティティを削除するための妥当性と一貫性の評価方法を設計することで、エンティティ情報を強化します。これにより、中国語の複雑な構造エンティティ認識問題を効果的に解決できます。
Resume データセットと自己構築石炭化学データセット Coal に関するこの論文の実験結果は、LLM-DER がドメイン固有のエンティティ認識において優れたパフォーマンスを示し、既存の GPT-3.5 ターボ ベースラインを上回るだけでなく、
完全に監視されたベースラインも超えており、エンティティ認識におけるその有効性が検証されています。

要約(オリジナル)

Domain-specific Named Entity Recognition (NER), whose goal is to recognize domain-specific entities and their categories, provides an important support for constructing domain knowledge graphs. Currently, deep learning-based methods are widely used and effective in NER tasks, but due to the reliance on large-scale labeled data. As a result, the scarcity of labeled data in a specific domain will limit its application.Therefore, many researches started to introduce few-shot methods and achieved some results. However, the entity structures in specific domains are often complex, and the current few-shot methods are difficult to adapt to NER tasks with complex features.Taking the Chinese coal chemical industry domain as an example,there exists a complex structure of multiple entities sharing a single entity, as well as multiple relationships for the same pair of entities, which affects the NER task under the sample less condition.In this paper, we propose a Large Language Models (LLMs)-based entity recognition framework LLM-DER for the domain-specific entity recognition problem in Chinese, which enriches the entity information by generating a list of relationships containing entity types through LLMs, and designing a plausibility and consistency evaluation method to remove misrecognized entities, which can effectively solve the complex structural entity recognition problem in a specific domain.The experimental results of this paper on the Resume dataset and the self-constructed coal chemical dataset Coal show that LLM-DER performs outstandingly in domain-specific entity recognition, not only outperforming the existing GPT-3.5-turbo baseline, but also exceeding the fully-supervised baseline, verifying its effectiveness in entity recognition.

arxiv情報

著者 Le Xiao,Yunfei Xu,Jing Zhao
発行日 2024-09-16 08:28:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク