要約
自然言語加工(NLP)は、人間の言語が不可欠に見えることを機械が理解するのを助ける必要性があるため、人工知能の支配的なサブセットになりつつあります。
いくつかのNLPアプリケーションは、ソーシャルネットワーキングサイトのような媒体を介して毎日チャーンアウトされているデータセットの無数のために、いくつかのNLPアプリケーションが遍在しています。
ただし、リソースの制限が持続しているため、ほとんどのアフリカの言語では、成長する開発は明らかではありません。
yor \ `ub \ ‘音色であり形態学的に豊かなアフリカの言語である言語は、同様の運命に苦しみ、NLPの使用が限られています。
この状況の改善に向けたさらなる研究を奨励するために、この系統的文献レビューは、Yor \ `ub \ ‘aのNLP開発に取り組む研究、課題、リソース、技術、およびアプリケーションを特定する研究を包括的に分析することを目的としています。
構造化されたプロトコルから明確に定義された検索文字列を使用して、2014年から2024年の間に105の主要な研究を評判の良いデータベースから検索、選択、分析しました。
このレビューでは、注釈付きコーパスの希少性、事前に訓練された言語モデルの利用可能性が限られていること、および重要な障害としての音色の複雑さやディアリティック依存などの言語的課題が強調されています。
また、とりわけ、ルールベースの方法を含む顕著な手法を明らかにしました。
この調査結果は、デジタル使用のためのコードスイッチングや言語の脱走などの社会文化的要因によって分野が制約されているにもかかわらず、多言語および単一言語のリソースの増加体を明らかにしています。
このレビューは、既存の研究を統合し、Yor \ `ub \ ‘aおよびアフリカの言語のためにNLPを前進させるための基盤を提供します。
ギャップと機会を特定することにより、将来の研究を導き、それによってグローバルなNLPの進歩におけるYor \ `ub \ ‘aおよびその他のリソース不足アフリカ言語のより広範な包含に貢献することを目指しています。
要約(オリジナル)
Natural Language Processing (NLP) is becoming a dominant subset of artificial intelligence as the need to help machines understand human language looks indispensable. Several NLP applications are ubiquitous, partly due to the myriads of datasets being churned out daily through mediums like social networking sites. However, the growing development has not been evident in most African languages due to the persisting resource limitation, among other issues. Yor\`ub\’a language, a tonal and morphologically rich African language, suffers a similar fate, resulting in limited NLP usage. To encourage further research towards improving this situation, this systematic literature review aims to comprehensively analyse studies addressing NLP development for Yor\`ub\’a, identifying challenges, resources, techniques, and applications. A well-defined search string from a structured protocol was employed to search, select, and analyse 105 primary studies between 2014 and 2024 from reputable databases. The review highlights the scarcity of annotated corpora, limited availability of pre-trained language models, and linguistic challenges like tonal complexity and diacritic dependency as significant obstacles. It also revealed the prominent techniques, including rule-based methods, among others. The findings reveal a growing body of multilingual and monolingual resources, even though the field is constrained by socio-cultural factors such as code-switching and desertion of language for digital usage. This review synthesises existing research, providing a foundation for advancing NLP for Yor\`ub\’a and in African languages generally. It aims to guide future research by identifying gaps and opportunities, thereby contributing to the broader inclusion of Yor\`ub\’a and other under-resourced African languages in global NLP advancements.
arxiv情報
著者 | Toheeb A. Jimoh,Tabea De Wille,Nikola S. Nikolov |
発行日 | 2025-02-24 17:41:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google