要約
大規模言語モデル (LLM) は、ダウンストリームのさまざまな自然言語処理 (NLP) タスクで優れたパフォーマンスを発揮するため、最近人気が高まっています。
ただし、低リソース言語は、LLM をトレーニングするためのリソースが不十分なため、NLP 分野における現在の最先端 (SOTA) の開発に依然として遅れをとっています。
エチオピアの言語は、幅広い文字を包含する驚くべき言語的多様性を示し、深い宗教的および文化的重要性が染み込んでいます。
この論文では、エチオピアの 5 つの言語 (アムハラ語、ゲズ語、アファン オロモ語、ソマリ語、ティグリニャ語) と英語の多言語大規模言語モデルである EthioLLM と、さまざまなダウンストリーム NLP タスク用の新しいベンチマーク データセットである Ethiobenchmark を紹介します。
これらのモデルのパフォーマンスを 5 つのダウンストリーム NLP タスクにわたって評価します。
私たちは、多言語言語モデル、さまざまな下流タスク用の新しいベンチマーク データセット、およびタスク固有の微調整された言語モデルをオープンソース化し、モデルのパフォーマンスについて議論します。
私たちのデータセットとモデルは、https://huggingface.co/EthioNLP リポジトリで入手できます。
要約(オリジナル)
Large language models (LLMs) have gained popularity recently due to their outstanding performance in various downstream Natural Language Processing (NLP) tasks. However, low-resource languages are still lagging behind current state-of-the-art (SOTA) developments in the field of NLP due to insufficient resources to train LLMs. Ethiopian languages exhibit remarkable linguistic diversity, encompassing a wide array of scripts, and are imbued with profound religious and cultural significance. This paper introduces EthioLLM — multilingual large language models for five Ethiopian languages (Amharic, Ge’ez, Afan Oromo, Somali, and Tigrinya) and English, and Ethiobenchmark — a new benchmark dataset for various downstream NLP tasks. We evaluate the performance of these models across five downstream NLP tasks. We open-source our multilingual language models, new benchmark datasets for various downstream tasks, and task-specific fine-tuned language models and discuss the performance of the models. Our dataset and models are available at the https://huggingface.co/EthioNLP repository.
arxiv情報
著者 | Atnafu Lambebo Tonja,Israel Abebe Azime,Tadesse Destaw Belay,Mesay Gemeda Yigezu,Moges Ahmed Mehamed,Abinew Ali Ayele,Ebrahim Chekol Jibril,Michael Melese Woldeyohannis,Olga Kolesnikova,Philipp Slusallek,Dietrich Klakow,Shengwu Xiong,Seid Muhie Yimam |
発行日 | 2024-03-26 13:01:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google