Cheetah: Natural Language Generation for 517 African Languages

要約

リソースの少ないアフリカ言語は、自然言語生成 (NLG) を含む自然言語処理 (NLP) タスクに特有の課題を引き起こします。
この論文では、アフリカ言語の大規模多言語 NLG 言語モデルである Cheetah を開発します。
Cheetah は 517 のアフリカの言語と言語の多様性をサポートしているため、NLG リソースの不足に対処し、言語の多様性を促進するソリューションを提供できます。
私たちは、7 世代の下流タスクにわたる包括的な評価を通じて Cheetah の有効性を実証します。
7 つのタスクのうち 5 つにおいて、Cheetah は他のモデルを大幅に上回っており、アフリカの幅広い言語で一貫性があり、文脈上適切なテキストを生成するという顕著なパフォーマンスを示しています。
さらに、チーターの言語能力をさらに詳しく調べるために、人間による詳細な評価も実施します。
Cheetah の導入は、言語の多様性に広範なメリットをもたらします。
事前トレーニングされたモデルを活用し、特定の言語に適応させることで、私たちのアプローチはアフリカのコミュニティ向けの実用的な NLG アプリケーションの開発を促進します。
この研究の結果は、リソースが少ない環境での NLP 研究の進歩に貢献し、急速に拡大するデジタル環境におけるアフリカ言語のアクセシビリティの向上と包摂を可能にします。
研究用にモデルを公開します。

要約(オリジナル)

Low-resource African languages pose unique challenges for natural language processing (NLP) tasks, including natural language generation (NLG). In this paper, we develop Cheetah, a massively multilingual NLG language model for African languages. Cheetah supports 517 African languages and language varieties, allowing us to address the scarcity of NLG resources and provide a solution to foster linguistic diversity. We demonstrate the effectiveness of Cheetah through comprehensive evaluations across seven generation downstream tasks. In five of the seven tasks, Cheetah significantly outperforms other models, showcasing its remarkable performance for generating coherent and contextually appropriate text in a wide range of African languages. We additionally conduct a detailed human evaluation to delve deeper into the linguistic capabilities of Cheetah. The introduction of Cheetah has far-reaching benefits for linguistic diversity. By leveraging pretrained models and adapting them to specific languages, our approach facilitates the development of practical NLG applications for African communities. The findings of this study contribute to advancing NLP research in low-resource settings, enabling greater accessibility and inclusion for African languages in a rapidly expanding digital landscape. We will publicly release our models for research.

arxiv情報

著者 Ife Adebara,AbdelRahim Elmadany,Muhammad Abdul-Mageed
発行日 2024-01-02 06:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク