Contextualising Levels of Language Resourcedness affecting Digital Processing of Text

要約

デジタル人文科学やチャットボットなどのツールなどのアプリケーション ドメインには、ハードコピーのデジタル化から音声生成まで、何らかの形式の自然言語処理が含まれます。
コンテンツの言語は通常、低リソース言語 (LRL) または高リソース言語 (HRL) として特徴付けられ、それぞれリソースが不足している言語、リソースが豊富な言語とも呼ばれます。
アフリカの言語は資源が乏しい言語として特徴づけられており (Bosch et al. 2007; Pretorius & Bosch 2003; Keet & Khumalo 2014)、英語は群を抜いて資源が豊富な言語です。
さまざまな言語リソースを使用して、これらの言語用のソフトウェア システムを開発し、さまざまなタスクを実行します。
この論文では、すべての言語に対する二分的な類型論 LRL と HRL には問題があると主張します。
社会に存在する言語リソースを明確に理解することにより、言語を Very LRL、LRL、RL、HRL、および Very HRL として特徴付けるマトリックスが作成されます。
特徴付けは、カウントツールではなく、各カテゴリーの文脈上の特徴の類型論に基づいており、各特徴と各特徴付けに対して動機が提供されます。
この論文ではアフリカの言語に焦点を当ててリソースの状況を説明し、プロジェクトで使用される言語が規模のどの位置にあるかについての理解を深めれば、とりわけ、研究および実施プロジェクトのより良い計画に役立つ可能性があります。
したがって、この論文では、プロジェクト内の特定のスケール内での言語リソースの特徴付けは、特にリソースの少ない言語のコンテキストでは不可欠な要素であると主張します。

要約(オリジナル)

Application domains such as digital humanities and tool like chatbots involve some form of processing natural language, from digitising hardcopies to speech generation. The language of the content is typically characterised as either a low resource language (LRL) or high resource language (HRL), also known as resource-scarce and well-resourced languages, respectively. African languages have been characterized as resource-scarce languages (Bosch et al. 2007; Pretorius & Bosch 2003; Keet & Khumalo 2014) and English is by far the most well-resourced language. Varied language resources are used to develop software systems for these languages to accomplish a wide range of tasks. In this paper we argue that the dichotomous typology LRL and HRL for all languages is problematic. Through a clear understanding of language resources situated in a society, a matrix is developed that characterizes languages as Very LRL, LRL, RL, HRL and Very HRL. The characterization is based on the typology of contextual features for each category, rather than counting tools, and motivation is provided for each feature and each characterization. The contextualisation of resourcedness, with a focus on African languages in this paper, and an increased understanding of where on the scale the language used in a project is, may assist in, among others, better planning of research and implementation projects. We thus argue in this paper that the characterization of language resources within a given scale in a project is an indispensable component particularly in the context of low-resourced languages.

arxiv情報

著者 C. Maria Keet,Langa Khumalo
発行日 2023-09-29 07:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク