LLMs for Extremely Low-Resource Finno-Ugric Languages

要約

大規模言語モデル (LLM) の進歩は主に高リソース言語に焦点を当てており、フィン・ウゴル語族などの低リソース言語は著しく過小評価されています。
この文書では、V\~oro、Livonian、および Komi に焦点を当てることで、このギャップに対処します。
データ収集から命令のチューニングと評価に至るまで、LLM 作成のほぼ全サイクルをカバーします。
私たちの貢献には、多言語ベースおよび命令に調整されたモデルの開発が含まれます。
smugri-MT-bench マルチターン会話ベンチマークなどの評価ベンチマークを作成します。
そして人間による評価を実施します。
私たちはこの取り組みで言語の多様性を促進し、リソースの少ない言語でも NLP の進歩から恩恵を受けられるようにすることを目指しています。

要約(オリジナル)

The advancement of large language models (LLMs) has predominantly focused on high-resource languages, leaving low-resource languages, such as those in the Finno-Ugric family, significantly underrepresented. This paper addresses this gap by focusing on V\~oro, Livonian, and Komi. We cover almost the entire cycle of LLM creation, from data collection to instruction tuning and evaluation. Our contributions include developing multilingual base and instruction-tuned models; creating evaluation benchmarks, including the smugri-MT-bench multi-turn conversational benchmark; and conducting human evaluation. We intend for this work to promote linguistic diversity, ensuring that lesser-resourced languages can benefit from advancements in NLP.

arxiv情報

著者 Taido Purason,Hele-Andra Kuulmets,Mark Fishel
発行日 2024-10-24 16:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク