TLUE: A Tibetan Language Understanding Evaluation Benchmark

要約

大規模な言語モデル(LLM)は近年大きな進歩を遂げていますが、チベット語などの低リソース言語は、評価において著しく過小評価されています。
チベット人は700万人以上の人々によって話されていますが、LLMの開発と評価においてほとんど無視されてきました。
このギャップに対処するために、チベット語でLLMSの機能を評価するための最初の大規模なベンチマークであるTLUE(チベット語理解評価ベンチマーク)を提示します。
TLUEは、2つの主要なコンポーネントで構成されています。(1)5つのドメインと67のサブドメインにまたがる包括的なマルチタスク理解ベンチマーク、および(2)7サブドメインをカバーする安全ベンチマーク。
最先端のLLMの多様なセットを評価します。
実験結果は、ほとんどのLLMがランダムベースラインの下を下回ることを示しており、LLMSが低資源言語であるチベット語を処理する際に直面するかなりの課題を強調しています。
TLUEは、チベット語の言語理解における将来の研究と進歩を推進するための重要な基盤を提供し、LLM開発におけるより大きな包括性の必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) have made tremendous progress in recent years, but low-resource languages, such as Tibetan, remain significantly underrepresented in their evaluation. Despite Tibetan being spoken by over seven million people, it has largely been neglected in the development and assessment of LLMs. To address this gap, we present TLUE (A Tibetan Language Understanding Evaluation Benchmark), the first large-scale benchmark for assessing LLMs’ capabilities in Tibetan. TLUE comprises two major components: (1) a comprehensive multi-task understanding benchmark spanning 5 domains and 67 subdomains, and (2) a safety benchmark covering 7 subdomains. We evaluate a diverse set of state-of-the-art LLMs. Experimental results demonstrate that most LLMs perform below the random baseline, highlighting the considerable challenges LLMs face in processing Tibetan, a low-resource language. TLUE provides an essential foundation for driving future research and progress in Tibetan language understanding and underscores the need for greater inclusivity in LLM development.

arxiv情報

著者 Fan Gao,Cheng Huang,Nyima Tashi,Xiangxiang Wang,Thupten Tsering,Ban Ma-bao,Renzeg Duojie,Gadeng Luosang,Rinchen Dongrub,Dorje Tashi,Hao Wang Xiao Feng,Yongbin Yu
発行日 2025-05-28 16:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク