要約
Hausa Natural Language Processing(NLP)は近年、注目を集めていますが、世界中の1億2,000万人以上の第1言語(L1)と8,000万の第2言語(L2)スピーカーを抱えているにもかかわらず、低リソースの言語としては理解されていません。
高リソース言語では大きな進歩がありますが、Hausa NLPは、限られたオープンソースデータセットや不十分なモデル表現など、持続的な課題に直面しています。
このホワイトペーパーでは、Hausa NLPの現状の概要を示し、基本的なNLPタスクの既存のリソース、研究貢献、ギャップを体系的に調査します。テキスト分類、機械翻訳、名前付きエンティティ認識、音声認識、質問の回答。
データセット、ツール、および研究を集約するキュレーションされたカタログであるHausanlp(https://catalog.hausanlp.org)を紹介します。
さらに、Hausaを大規模な言語モデル(LLM)に統合し、最適ではないトークン化と方言の変動の問題に対処する際の課題について説明します。
最後に、データセットの拡張、言語モデリングのアプローチを改善し、Hausa NLPを前進させるためのコミュニティコラボレーションを強化する戦略的研究の方向性を提案します。
私たちの仕事は、Hausa NLPの進歩を加速するための基盤と、より広範な多言語NLP研究のための貴重な洞察の両方を提供します。
要約(オリジナル)
Hausa Natural Language Processing (NLP) has gained increasing attention in recent years, yet remains understudied as a low-resource language despite having over 120 million first-language (L1) and 80 million second-language (L2) speakers worldwide. While significant advances have been made in high-resource languages, Hausa NLP faces persistent challenges, including limited open-source datasets and inadequate model representation. This paper presents an overview of the current state of Hausa NLP, systematically examining existing resources, research contributions, and gaps across fundamental NLP tasks: text classification, machine translation, named entity recognition, speech recognition, and question answering. We introduce HausaNLP (https://catalog.hausanlp.org), a curated catalog that aggregates datasets, tools, and research works to enhance accessibility and drive further development. Furthermore, we discuss challenges in integrating Hausa into large language models (LLMs), addressing issues of suboptimal tokenization and dialectal variation. Finally, we propose strategic research directions emphasizing dataset expansion, improved language modeling approaches, and strengthened community collaboration to advance Hausa NLP. Our work provides both a foundation for accelerating Hausa NLP progress and valuable insights for broader multilingual NLP research.
arxiv情報
著者 | Shamsuddeen Hassan Muhammad,Ibrahim Said Ahmad,Idris Abdulmumin,Falalu Ibrahim Lawan,Babangida Sani,Sukairaj Hafiz Imam,Yusuf Aliyu,Sani Abdullahi Sani,Ali Usman Umar,Tajuddeen Gwadabe,Kenneth Church,Vukosi Marivate |
発行日 | 2025-05-23 17:13:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google