Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark

要約

多くの言語でゴールドスタンダード NER ベンチマークを開発するオープンなコミュニティ主導のプロジェクトである Universal NER (UNER) を紹介します。
UNER の包括的な目標は、高品質で言語間で一貫したアノテーションを提供して、多言語 NER 研究を促進および標準化することです。
UNER v1 には、12 の多様な言語にわたる言語間で一貫したスキーマの名前付きエンティティで注釈が付けられた 18 個のデータセットが含まれています。
このペーパーでは、UNER のデータセットの作成と構成について詳しく説明します。
また、言語内学習設定と言語間学習設定の両方に関する初期モデリング ベースラインも提供します。
データ、コード、適合モデルを一般に公開します。

要約(オリジナル)

We introduce Universal NER (UNER), an open, community-driven project to develop gold-standard NER benchmarks in many languages. The overarching goal of UNER is to provide high-quality, cross-lingually consistent annotations to facilitate and standardize multilingual NER research. UNER v1 contains 18 datasets annotated with named entities in a cross-lingual consistent schema across 12 diverse languages. In this paper, we detail the dataset creation and composition of UNER; we also provide initial modeling baselines on both in-language and cross-lingual learning settings. We release the data, code, and fitted models to the public.

arxiv情報

著者 Stephen Mayhew,Terra Blevins,Shuheng Liu,Marek Šuppa,Hila Gonen,Joseph Marvin Imperial,Börje F. Karlsson,Peiqin Lin,Nikola Ljubešić,LJ Miranda,Barbara Plank,Arij Riabi,Yuval Pinter
発行日 2023-11-15 17:09:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク