Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition

要約

任意のドメインから任意のタイプのエンティティを識別するオープン名前付きエンティティ認識 (NER) は、大規模言語モデル (LLM) にとって依然として困難です。
最近の研究では、広範な NER データに基づいて LLM を微調整することでパフォーマンスを向上できることが示唆されています。
ただし、既存のデータセットで直接トレーニングすると、一貫性のないエンティティ定義と冗長データが無視され、LLM がデータセット固有の学習に制限され、ドメイン外の適応が妨げられます。
これに対処するために、普遍的なエンティティ分類法の下で Open NER における LLM の一般化をガイドするために設計されたコンパクトなデータセットである B2NERD を紹介します。
B2NERD は、2 段階のプロセスを使用して、54 の既存の英語と中国語のデータセットから精製されます。
まず、データセット全体で一貫性のないエンティティ定義を検出し、区別可能なラベル名によってそれらを明確にして、400 を超えるエンティティ タイプの普遍的な分類を構築します。
2 番目に、カテゴリとセマンティックの多様性が高く、より少ないサンプルを選択するデータ プルーニング戦略を使用して冗長性に対処します。
総合的な評価により、B2NERD が LLM の Open NER 機能を大幅に強化することが示されています。
B2NERD でトレーニングされた当社の B2NER モデルは、GPT-4 を 6.8 ~ 12.0 F1 ポイント上回っており、15 のデータセットと 6 つの言語にわたる 3 つのドメイン外ベンチマークで以前の手法を上回っています。
データ、モデル、コードは https://github.com/UmeanNever/B2NER で公開されています。

要約(オリジナル)

Open Named Entity Recognition (NER), which involves identifying arbitrary types of entities from arbitrary domains, remains challenging for Large Language Models (LLMs). Recent studies suggest that fine-tuning LLMs on extensive NER data can boost their performance. However, training directly on existing datasets neglects their inconsistent entity definitions and redundant data, limiting LLMs to dataset-specific learning and hindering out-of-domain adaptation. To address this, we present B2NERD, a compact dataset designed to guide LLMs’ generalization in Open NER under a universal entity taxonomy. B2NERD is refined from 54 existing English and Chinese datasets using a two-step process. First, we detect inconsistent entity definitions across datasets and clarify them by distinguishable label names to construct a universal taxonomy of 400+ entity types. Second, we address redundancy using a data pruning strategy that selects fewer samples with greater category and semantic diversity. Comprehensive evaluation shows that B2NERD significantly enhances LLMs’ Open NER capabilities. Our B2NER models, trained on B2NERD, outperform GPT-4 by 6.8-12.0 F1 points and surpass previous methods in 3 out-of-domain benchmarks across 15 datasets and 6 languages. The data, models, and code are publicly available at https://github.com/UmeanNever/B2NER.

arxiv情報

著者 Yuming Yang,Wantong Zhao,Caishuang Huang,Junjie Ye,Xiao Wang,Huiyuan Zheng,Yang Nan,Yuran Wang,Xueying Xu,Kaixin Huang,Yunke Zhang,Tao Gui,Qi Zhang,Xuanjing Huang
発行日 2025-01-15 14:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク