WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning Experiments for Slovak Named Entity Recognition



– Named Entity Recognition(NER)は、広範な実用的応用がある基本的なNLPタスクである。
– ステートオブジアートのNER手法の性能は、いくつかの言語に対してまだ存在しない高品質な手動アノテーションデータセットに依存している。
– この研究では、スロバキア語においてWikiGoldSKと呼ばれる初の大規模な人手によるアノテーションデータセットを導入することで、この状況を改善することを目的としている。
– 現存する銀標準のスロバキアNERデータセットと比較しながら、最先端の多言語Pretrained Language Modelを評価することで、福音をベンチマークにする。
– 少量の実験を行い、銀標準データセットでのトレーニングがより良い結果を生むことを示す。
– スロバキア語NERに基づく将来の作業を可能にするために、データセット、コード、およびトレーニングモデルをパブリックに公開する。これは許可されたライセンス条件下で行われる。


Named Entity Recognition (NER) is a fundamental NLP tasks with a wide range of practical applications. The performance of state-of-the-art NER methods depends on high quality manually anotated datasets which still do not exist for some languages. In this work we aim to remedy this situation in Slovak by introducing WikiGoldSK, the first sizable human labelled Slovak NER dataset. We benchmark it by evaluating state-of-the-art multilingual Pretrained Language Models and comparing it to the existing silver-standard Slovak NER dataset. We also conduct few-shot experiments and show that training on a sliver-standard dataset yields better results. To enable future work that can be based on Slovak NER, we release the dataset, code, as well as the trained models publicly under permissible licensing terms at


著者 Dávid Šuba,Marek Šuppa,Jozef Kubík,Endre Hamerlik,Martin Takáč
発行日 2023-04-08 14:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク