Approaches to Corpus Creation for Low-Resource Language Technology: the Case of Southern Kurdish and Laki

要約

タイトル: 低資源言語技術のコーパス作成手法:南クルド語とラキ語のケース
要約:
・言語技術における未習得および危機に瀕した言語コミュニティが直面する主要な課題の1つは、言語データの欠如または乏しさである。
・南部クルド語とラキ語の場合も同様であり、言語資源が限定的であり、ツールの進歩も限定的である。
・この問題に対処するために、地元のニュースサイト、南クルド語でコンテンツを放送する地元のラジオ局、そしてラキ語のフィールドワークに依存するアプローチを提供している。
・本論文では、低資源言語のいくつかの課題、特に書き言葉と標準化について説明し、データのソースを取得し、手書きのコンテンツをレトロ・デジタル化して南クルド語とラキ語のコーパスを作成するための手法についても説明している。
・さらに、クルド語やザザ・ゴラニ語の他のバリアントとして、言語識別のタスクを研究している。

要約(オリジナル)

One of the major challenges that under-represented and endangered language communities face in language technology is the lack or paucity of language data. This is also the case of the Southern varieties of the Kurdish and Laki languages for which very limited resources are available with insubstantial progress in tools. To tackle this, we provide a few approaches that rely on the content of local news websites, a local radio station that broadcasts content in Southern Kurdish and fieldwork for Laki. In this paper, we describe some of the challenges of such under-represented languages, particularly in writing and standardization, and also, in retrieving sources of data and retro-digitizing handwritten content to create a corpus for Southern Kurdish and Laki. In addition, we study the task of language identification in light of the other variants of Kurdish and Zaza-Gorani languages.

arxiv情報

著者 Sina Ahmadi,Zahra Azin,Sara Belelli,Antonios Anastasopoulos
発行日 2023-04-03 19:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク