要約
大規模な言語モデル(LLM)は高リソース言語で優れていますが、低リソース言語(LRL)、特にチベット語、ウイグル、カザフ、モンゴル語などの中国の少数派コミュニティによって話されている言語(LRL)に苦労しています。
これらの言語の進捗状況を体系的に追跡するために、9つのタスクにわたって24Kインスタンスを特徴とする中国の少数言語向けに設計されたベンチマークであるMilic-Valを紹介します。
Milic-Evalは、過小評価されているライティングシステムに焦点を当てています。
タスクと言語間のその並列性は、言語的および問題解決スキルの忠実できめの細かい評価を提供することができます。
私たちの評価により、オープンソースのLLMは、構文集約型タスクとマルチスクリプト言語でパフォーマンスが低いことが明らかになりました。
さらに、Milic-Valが多様なライティングシステムの処理と言語適応のプロセスを理解する際にLRLの研究を進めるのにどのように役立つかを示します。
要約(オリジナル)
Large language models (LLMs) excel in high-resource languages but struggle with low-resource languages (LRLs), particularly those spoken by minority communities in China, such as Tibetan, Uyghur, Kazakh, and Mongolian. To systematically track the progress in these languages, we introduce MiLiC-Eval, a benchmark designed for minority languages in China, featuring 24K instances across 9 tasks. MiLiC-Eval focuses on underrepresented writing systems. Its parallelism between tasks and languages can provide a faithful and fine-grained assessment of linguistic and problem-solving skills. Our evaluation reveals that open-source LLMs perform poorly on syntax-intensive tasks and multi-script languages. We further demonstrate how MiLiC-Eval can help advance LRL research in handling diverse writing systems and understanding the process of language adaptation.
arxiv情報
著者 | Chen Zhang,Mingxu Tao,Zhiyuan Liao,Yansong Feng |
発行日 | 2025-06-02 13:06:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google