Contextualising Levels of Language Resourcedness affecting Digital Processing of Text


デジタル人文科学やチャットボットなどのツールなどのアプリケーション ドメインには、ハードコピーのデジタル化から音声生成まで、何らかの形式の自然言語処理が含まれます。
コンテンツの言語は通常、低リソース言語 (LRL) または高リソース言語 (HRL) として特徴付けられ、それぞれリソースが不足している言語、リソースが豊富な言語とも呼ばれます。
アフリカの言語は資源が乏しい言語として特徴づけられており (Bosch et al. 2007; Pretorius & Bosch 2003; Keet & Khumalo 2014)、英語は群を抜いて資源が豊富な言語です。
さまざまな言語リソースを使用して、これらの言語用のソフトウェア システムを開発し、さまざまなタスクを実行します。
この論文では、すべての言語に対する二分的な類型論 LRL と HRL には問題があると主張します。
社会に存在する言語リソースを明確に理解することにより、言語を Very LRL、LRL、RL、HRL、および Very HRL として特徴付けるマトリックスが作成されます。


Application domains such as digital humanities and tool like chatbots involve some form of processing natural language, from digitising hardcopies to speech generation. The language of the content is typically characterised as either a low resource language (LRL) or high resource language (HRL), also known as resource-scarce and well-resourced languages, respectively. African languages have been characterized as resource-scarce languages (Bosch et al. 2007; Pretorius & Bosch 2003; Keet & Khumalo 2014) and English is by far the most well-resourced language. Varied language resources are used to develop software systems for these languages to accomplish a wide range of tasks. In this paper we argue that the dichotomous typology LRL and HRL for all languages is problematic. Through a clear understanding of language resources situated in a society, a matrix is developed that characterizes languages as Very LRL, LRL, RL, HRL and Very HRL. The characterization is based on the typology of contextual features for each category, rather than counting tools, and motivation is provided for each feature and each characterization. The contextualisation of resourcedness, with a focus on African languages in this paper, and an increased understanding of where on the scale the language used in a project is, may assist in, among others, better planning of research and implementation projects. We thus argue in this paper that the characterization of language resources within a given scale in a project is an indispensable component particularly in the context of low-resourced languages.


著者 C. Maria Keet,Langa Khumalo
発行日 2023-09-29 07:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, I.2.7 パーマリンク