要約
大規模言語モデル(LLM)の進歩は、主に高リソース言語に焦点を当てており、フィン・ウゴル語族のような低リソース言語が大きく取り上げられていない。本稿では、このギャップを解消するために、Vii~Oro語、Livonian語、Komi語に焦点を当てる。データ収集からインストラクションのチューニング、評価まで、LLM作成のほぼ全サイクルをカバーする。私たちの貢献には、多言語ベースモデルと命令チューニングモデルの開発、smugri-MT-benchマルチターン会話ベンチマークを含む評価ベンチマークの作成、人間による評価の実施などが含まれる。私たちは、この研究が言語の多様性を促進し、よりリソースの少ない言語がNLPの進歩の恩恵を受けられるようにすることを意図しています。
要約(オリジナル)
The advancement of large language models (LLMs) has predominantly focused on high-resource languages, leaving low-resource languages, such as those in the Finno-Ugric family, significantly underrepresented. This paper addresses this gap by focusing on V\~oro, Livonian, and Komi. We cover almost the entire cycle of LLM creation, from data collection to instruction tuning and evaluation. Our contributions include developing multilingual base and instruction-tuned models; creating evaluation benchmarks, including the smugri-MT-bench multi-turn conversational benchmark; and conducting human evaluation. We intend for this work to promote linguistic diversity, ensuring that lesser-resourced languages can benefit from advancements in NLP.
arxiv情報
著者 | Taido Purason,Hele-Andra Kuulmets,Mark Fishel |
発行日 | 2025-05-05 15:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |