A Survey of Corpora for Germanic Low-Resource Languages and Dialects

要約

タイトル:ジャーマン語族の少数資源言語および方言のコーパスに関する調査

要約:
– 自然言語処理分野においては、話者数の多い標準的な言語に対して多くの研究が進んでいるが、少数資源言語や非標準的な少数資源言語に対する研究は限られている。
– 大きな言語ファミリーに属する言語でも、利用可能なリソースやNLPの課題についてあまり情報がない。
– この状況に対処するための第一歩として、利用可能なコーパスの体系的な調査が必要である。
– 本論文では、ジャーマン語族に属する少数資源言語に焦点を当てて、80種以上のコーパスについて調査した。手動で注釈付けされた資源は不足しており、ある場合でも主に形態論をカバーしている。
– しかしながら、この分野に興味は高まっており、研究コミュニティも成長している。調査結果は公開されており、関連ウェブサイトもあり、研究の促進に役立てられる。

要約(オリジナル)

Despite much progress in recent years, the vast majority of work in natural language processing (NLP) is on standard languages with many speakers. In this work, we instead focus on low-resource languages and in particular non-standardized low-resource languages. Even within branches of major language families, often considered well-researched, little is known about the extent and type of available resources and what the major NLP challenges are for these language varieties. The first step to address this situation is a systematic survey of available corpora (most importantly, annotated corpora, which are particularly valuable for NLP research). Focusing on Germanic low-resource language varieties, we provide such a survey in this paper. Except for geolocation (origin of speaker or document), we find that manually annotated linguistic resources are sparse and, if they exist, mostly cover morphosyntax. Despite this lack of resources, we observe that interest in this area is increasing: there is active development and a growing research community. To facilitate research, we make our overview of over 80 corpora publicly available. We share a companion website of this overview at https://github.com/mainlp/germanic-lrl-corpora .

arxiv情報

著者 Verena Blaschke,Hinrich Schütze,Barbara Plank
発行日 2023-04-19 16:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク