LLMs for Extremely Low-Resource Finno-Ugric Languages

要約

大規模言語モデル(LLM)の進歩は、主に高リソース言語に焦点を当てており、フィン・ウゴル語族のような低リソース言語が大きく取り上げられていない。本稿では、このギャップを解消するために、Vii~Oro語、Livonian語、Komi語に焦点を当てる。データ収集からインストラクションのチューニング、評価まで、LLM作成のほぼ全サイクルをカバーする。私たちの貢献には、多言語ベースモデルと命令チューニングモデルの開発、smugri-MT-benchマルチターン会話ベンチマークを含む評価ベンチマークの作成、人間による評価の実施などが含まれる。私たちは、この研究が言語の多様性を促進し、よりリソースの少ない言語がNLPの進歩の恩恵を受けられるようにすることを意図しています。

要約(オリジナル)

The advancement of large language models (LLMs) has predominantly focused on high-resource languages, leaving low-resource languages, such as those in the Finno-Ugric family, significantly underrepresented. This paper addresses this gap by focusing on V\~oro, Livonian, and Komi. We cover almost the entire cycle of LLM creation, from data collection to instruction tuning and evaluation. Our contributions include developing multilingual base and instruction-tuned models; creating evaluation benchmarks, including the smugri-MT-bench multi-turn conversational benchmark; and conducting human evaluation. We intend for this work to promote linguistic diversity, ensuring that lesser-resourced languages can benefit from advancements in NLP.

arxiv情報

著者 Taido Purason,Hele-Andra Kuulmets,Mark Fishel
発行日 2025-05-05 15:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク