PUnifiedNER: A Prompting-based Unified NER System for Diverse Datasets

要約

Named Entity Recognition (NER) 研究の多くは、関心のあるドメインのデータに基づくデータセット固有のモデルの開発と、関連するエンティティ タイプの限られたセットに焦点を当てています。
新しいデータセットごとに新しいモデルをトレーニングして保存する必要があるため、これはイライラします。
この作業では、さまざまなドメインからのデータを処理し、最大 37 のエンティティ タイプを同時に認識できる「多用途」モデル (Prompting ベースの Unified NER システム (PUnifiedNER)) を提示します。
できるだけ多く。
PUnifiedNER は、プロンプト ラーニングを使用することで、複数のコーパスにわたって共同でトレーニングできる新しいアプローチであり、インテリジェントなオンデマンド エンティティ認識を実装します。
実験結果は、データセット固有のモデルと比較して、PUnifiedNER が大幅な予測の利点をもたらし、モデルの展開コストが大幅に削減されることを示しています。
さらに、PUnifiedNER のパフォーマンスは、一部のデータセットの最先端のドメイン固有の方法よりも競争力のある、またはさらに優れたパフォーマンスを達成できます。
また、PUnifiedNER の各コンポーネントの詳細な分析をサポートするために、包括的なパイロットおよびアブレーション研究も実施しています。

要約(オリジナル)

Much of named entity recognition (NER) research focuses on developing dataset-specific models based on data from the domain of interest, and a limited set of related entity types. This is frustrating as each new dataset requires a new model to be trained and stored. In this work, we present a “versatile” model — the Prompting-based Unified NER system (PUnifiedNER) — that works with data from different domains and can recognise up to 37 entity types simultaneously, and theoretically it could be as many as possible. By using prompt learning, PUnifiedNER is a novel approach that is able to jointly train across multiple corpora, implementing intelligent on-demand entity recognition. Experimental results show that PUnifiedNER leads to significant prediction benefits compared to dataset-specific models with impressively reduced model deployment costs. Furthermore, the performance of PUnifiedNER can achieve competitive or even better performance than state-of-the-art domain-specific methods for some datasets. We also perform comprehensive pilot and ablation studies to support in-depth analysis of each component in PUnifiedNER.

arxiv情報

著者 Jinghui Lu,Rui Zhao,Brian Mac Namee,Fei Tan
発行日 2023-02-22 12:09:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク