MILU: A Multi-task Indic Language Understanding Benchmark

要約

リソースが少なく言語的に多様な言語の大規模言語モデル (LLM) を評価することは、NLP において、特にインドで話されているような非ラテン文字を使用する言語の場合、依然として大きな課題です。
既存のベンチマークは主に英語に焦点を当てており、これらの言語での LLM 機能の評価には大きなギャップが残されています。
このギャップに対処するために設計された包括的な評価ベンチマークである、マルチタスクのインド言語理解ベンチマークである MILU を紹介します。
MILU は 11 のインド言語にわたる 8 つの領域と 42 の主題に及び、一般的な知識と文化的に特有の知識の両方を反映しています。
インドを中心としたデザインで、科学や数学などの標準科目に加えて、地域の歴史、芸術、祭り、法律などのトピックをカバーする地域および州レベルの試験の内容が組み込まれています。
私たちは 45 を超える LLM を評価しましたが、現在の LLM は MILU に苦戦しており、GPT-4o が 72% という最高の平均精度を達成していることがわかりました。
オープン多言語モデルは、ランダムなベースラインよりわずかに優れているだけの、言語固有の微調整されたモデルよりも優れたパフォーマンスを発揮します。
また、モデルは、リソースの少ない言語と比較して、リソースの多い言語の方がパフォーマンスが高くなります。
ドメインごとの分析では、STEM などの一般的な分野と比較して、芸術や人文科学、法律、ガバナンスなどの文化的に関連する分野ではモデルのパフォーマンスが低いことが示されています。
私たちの知る限り、MILU はインド言語に焦点を当てた初めてのベンチマークであり、包括的な文化評価に向けた重要なステップとして機能します。
すべてのコード、ベンチマーク、アーティファクトは、オープンな研究を促進するために公開されています。

要約(オリジナル)

Evaluating Large Language Models (LLMs) in low-resource and linguistically diverse languages remains a significant challenge in NLP, particularly for languages using non-Latin scripts like those spoken in India. Existing benchmarks predominantly focus on English, leaving substantial gaps in assessing LLM capabilities in these languages. We introduce MILU, a Multi task Indic Language Understanding Benchmark, a comprehensive evaluation benchmark designed to address this gap. MILU spans 8 domains and 42 subjects across 11 Indic languages, reflecting both general and culturally specific knowledge. With an India-centric design, incorporates material from regional and state-level examinations, covering topics such as local history, arts, festivals, and laws, alongside standard subjects like science and mathematics. We evaluate over 45 LLMs, and find that current LLMs struggle with MILU, with GPT-4o achieving the highest average accuracy at 72 percent. Open multilingual models outperform language-specific fine-tuned models, which perform only slightly better than random baselines. Models also perform better in high resource languages as compared to low resource ones. Domain-wise analysis indicates that models perform poorly in culturally relevant areas like Arts and Humanities, Law and Governance compared to general fields like STEM. To the best of our knowledge, MILU is the first of its kind benchmark focused on Indic languages, serving as a crucial step towards comprehensive cultural evaluation. All code, benchmarks, and artifacts are publicly available to foster open research.

arxiv情報

著者 Sshubam Verma,Mohammed Safi Ur Rahman Khan,Vishwajeet Kumar,Rudra Murthy,Jaydeep Sen
発行日 2024-11-13 18:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク