Towards Leaving No Indic Language Behind: Building Monolingual Corpora, Benchmark and Models for Indic Languages


総話者ベースが 10 億人を超えるインド言語の自然言語理解 (NLU) 機能を構築することは、極めて重要です。
この研究では、(i) 単言語コーパス (ii) NLU テストセット (iii) インド言語に焦点を当てた多言語 LLM という 3 つの重要な軸に沿って貢献することにより、インド言語の NLU 機能を向上させることを目指しています。
具体的には、4 つの言語ファミリーの 24 言語をカバーする 2,090 億トークンを備えた最大の単一言語コーパスである IndicCorp をキュレートしています。これは、以前の研究の 2.3 倍に増加し、さらに 12 の追加言語をサポートしています。
次に、20 の言語をカバーする 9 つの多様な NLU タスクで構成される、人間が監視するベンチマーク IndicXTREME を作成します。
IndicXTREME には、言語とタスクにわたって合計 105 の評価セットが含まれており、そのうち 52 は文献への新たな貢献です。
最後に、すべての言語をサポートする最先端のモデルである IndicBERT v2 をトレーニングします。
言語とタスク全体で平均すると、このモデルは強力なベースラインよりも 2 ポイントの絶対的な改善を達成しました。
データとモデルは で入手できます。


Building Natural Language Understanding (NLU) capabilities for Indic languages, which have a collective speaker base of more than one billion speakers is absolutely crucial. In this work, we aim to improve the NLU capabilities of Indic languages by making contributions along 3 important axes (i) monolingual corpora (ii) NLU testsets (iii) multilingual LLMs focusing on Indic languages. Specifically, we curate the largest monolingual corpora, IndicCorp, with 20.9B tokens covering 24 languages from 4 language families – a 2.3x increase over prior work, while supporting 12 additional languages. Next, we create a human-supervised benchmark, IndicXTREME, consisting of nine diverse NLU tasks covering 20 languages. Across languages and tasks, IndicXTREME contains a total of 105 evaluation sets, of which 52 are new contributions to the literature. To the best of our knowledge, this is the first effort towards creating a standard benchmark for Indic languages that aims to test the multilingual zero-shot capabilities of pretrained language models. Finally, we train IndicBERT v2, a state-of-the-art model supporting all the languages. Averaged across languages and tasks, the model achieves an absolute improvement of 2 points over a strong baseline. The data and models are available at


著者 Sumanth Doddapaneni,Rahul Aralikatte,Gowtham Ramesh,Shreya Goyal,Mitesh M. Khapra,Anoop Kunchukuttan,Pratyush Kumar
発行日 2023-05-24 17:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク