要約
この作業では、セツワナと英語の両方に熟練したバイリンガル言語モデルのスイートであるプラを提示します。
データの可用性と効率的な微調整の最近の進歩を活用して、Pula 8BおよびPula 14Bは、英語セチャナ翻訳タスクでGPT-4OおよびGEMINI 1.5 Proを上回り、セットワナの推論タスクで最先端のパフォーマンスを達成します。
Pula 1B、3B、8B、および14Bの重みと、トレーニングログとトレーニングと評価コードをリリースします。
Pulaと並んで、史上最大のSetswana Text Corpus、Marothodi、および最初の包括的なSetswana命令調整データセットであるMedupiをリリースしました。
このデータに付随するために、データセットの構築、フォーマット、フィルタリング、およびスクレイピングに使用されるコードをリリースします。
最後に、セットワナの知識と推論能力を測定するために、2つのSetswana LLM翻訳ベンチマーク、MMLU-TSNとGSM8K-TSNをリリースしました。
要約(オリジナル)
In this work we present Pula, a suite of bilingual language models proficient in both Setswana and English. Leveraging recent advancements in data availability and efficient fine-tuning, Pula 8B and Pula 14B outperform GPT-4o and Gemini 1.5 Pro on English-Setswana translation tasks and achieve state-of-the-art performance on Setswana reasoning tasks for their size. We release the weights for Pula 1B, 3B, 8B, and 14B as well as training logs and training and evaluation code. Alongside Pula, we release the largest-ever Setswana text corpus, Marothodi, and the first comprehensive Setswana instruction-tuning dataset, Medupi, consisting of reformatted datasets, translated corpora, and synthetic LLM-generated text. To accompany this data, we release the code used for dataset construction, formatting, filtering, and scraping. Last, we release two Setswana LLM-translated benchmarks, MMLU-tsn and GSM8K-tsn, to measure Setswana knowledge and reasoning capabilities.
arxiv情報
著者 | Nathan Brown,Vukosi Marivate |
発行日 | 2025-04-28 17:19:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google