IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

要約

インド亜大陸の15億人以上の人々によって知られているLIND言語は、豊かな文化遺産、言語の多様性、複雑な構造により、自然言語加工(NLP)の研究のための独自の課題と機会を提示します。
indicmmlu-proは、インド言語全体で大規模な言語モデル(LLMS)を評価するために設計された包括的なベンチマークであり、MMLU Pro(Massive MultiTask言語理解)フレームワークに基づいています。
ヒンディー語、ベンガル語、グジャラート語、マラーティー語、カンナダ語、パンジャブ語、タミル語、テルグ語、ウルドゥー語などの主要な言語をカバーしている私たちのベンチマークは、インド亜大陸の言語多様性によって提示されるユニークな課題と機会に取り組んでいます。
このベンチマークには、インドの言語の複雑さをキャプチャするために細心の注意を払って作成された言語理解、推論、および生成の幅広いタスクが含まれます。
indicmmlu-proは、インド言語AIの研究境界を押し広げるための標準化された評価フレームワークを提供し、より正確で効率的で文化的に敏感なモデルの開発を促進します。
このペーパーでは、ベンチマークの設計原則、タスク分類法、データ収集方法論の概要を説明し、最先端の多言語モデルのベースライン結果を示します。

要約(オリジナル)

Known by more than 1.5 billion people in the Indian subcontinent, Indic languages present unique challenges and opportunities for natural language processing (NLP) research due to their rich cultural heritage, linguistic diversity, and complex structures. IndicMMLU-Pro is a comprehensive benchmark designed to evaluate Large Language Models (LLMs) across Indic languages, building upon the MMLU Pro (Massive Multitask Language Understanding) framework. Covering major languages such as Hindi, Bengali, Gujarati, Marathi, Kannada, Punjabi, Tamil, Telugu, and Urdu, our benchmark addresses the unique challenges and opportunities presented by the linguistic diversity of the Indian subcontinent. This benchmark encompasses a wide range of tasks in language comprehension, reasoning, and generation, meticulously crafted to capture the intricacies of Indian languages. IndicMMLU-Pro provides a standardized evaluation framework to push the research boundaries in Indic language AI, facilitating the development of more accurate, efficient, and culturally sensitive models. This paper outlines the benchmarks’ design principles, task taxonomy, and data collection methodology, and presents baseline results from state-of-the-art multilingual models.

arxiv情報

著者 Sankalp KJ,Ashutosh Kumar,Laxmaan Balaji,Nikunj Kotecha,Vinija Jain,Aman Chadha,Sreyoshi Bhaduri
発行日 2025-01-28 04:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク