A Survey of Resources and Methods for Natural Language Processing of Serbian Language



– セルビア語は、1200万人以上の話者によって話され、1500万人以上によって理解されるスラブ語です。
– 自然言語処理の分野において、セルビア語はリソースが不十分な言語とみなされています。
– セルビア語は高い曲調の言語でもあります。多くの単語の曲調の組み合わせとリソースの低い可用性が、セルビア語の自然言語処理を困難にします。
– しかし、過去30年間、本やインターネットからの自由なテキストのコーパス、分類や固有表現認識のための注釈のついたコーパス、これらのタスクを実行するさまざまな方法やモデルなど、セルビア語の自然言語処理のためのリソースと方法を開発するためのイニシアチブが数多くありました。
– 本論文では、それらのイニシアチブ、リソース、方法、およびその可用性をレビューします。


The Serbian language is a Slavic language spoken by over 12 million speakers and well understood by over 15 million people. In the area of natural language processing, it can be considered a low-resourced language. Also, Serbian is considered a high-inflectional language. The combination of many word inflections and low availability of language resources makes natural language processing of Serbian challenging. Nevertheless, over the past three decades, there have been a number of initiatives to develop resources and methods for natural language processing of Serbian, ranging from developing a corpus of free text from books and the internet, annotated corpora for classification and named entity recognition tasks to various methods and models performing these tasks. In this paper, we review the initiatives, resources, methods, and their availability.


著者 Ulfeta A. Marovac,Aldina R. Avdić,Nikola Lj. Milošević
発行日 2023-04-11 19:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: A.1, cs.CL, cs.DL, cs.HC パーマリンク