Towards Leaving No Indic Language Behind: Building Monolingual Corpora, Benchmark and Models for Indic Languages

要約

総話者ベースが 10 億人を超えるインド言語の自然言語理解 (NLU) 機能を構築することは、極めて重要です。
この研究では、(i) 単言語コーパス (ii) NLU テストセット (iii) インド言語に焦点を当てた多言語 LLM という 3 つの重要な軸に沿って貢献することにより、インド言語の NLU 機能を向上させることを目指しています。
具体的には、4 つの言語ファミリーの 24 言語をカバーする 2,090 億トークンを備えた最大の単一言語コーパスである IndicCorp をキュレートしています。これは、以前の研究の 2.3 倍に増加し、さらに 12 の追加言語をサポートしています。
次に、20 の言語をカバーする 9 つの多様な NLU タスクで構成される、人間が監視するベンチマーク IndicXTREME を作成します。
IndicXTREME には、言語とタスクにわたって合計 105 の評価セットが含まれており、そのうち 52 は文献への新たな貢献です。
私たちの知る限り、これは、事前トレーニング済み言語モデルの多言語ゼロショット機能をテストすることを目的とした、インド言語の標準ベンチマークの作成に向けた最初の取り組みです。
最後に、すべての言語をサポートする最先端のモデルである IndicBERT v2 をトレーニングします。
言語とタスク全体で平均すると、このモデルは強力なベースラインよりも 2 ポイントの絶対的な改善を達成しました。
データとモデルは https://github.com/AI4Bharat/IndicBERT で入手できます。

要約(オリジナル)

Building Natural Language Understanding (NLU) capabilities for Indic languages, which have a collective speaker base of more than one billion speakers is absolutely crucial. In this work, we aim to improve the NLU capabilities of Indic languages by making contributions along 3 important axes (i) monolingual corpora (ii) NLU testsets (iii) multilingual LLMs focusing on Indic languages. Specifically, we curate the largest monolingual corpora, IndicCorp, with 20.9B tokens covering 24 languages from 4 language families – a 2.3x increase over prior work, while supporting 12 additional languages. Next, we create a human-supervised benchmark, IndicXTREME, consisting of nine diverse NLU tasks covering 20 languages. Across languages and tasks, IndicXTREME contains a total of 105 evaluation sets, of which 52 are new contributions to the literature. To the best of our knowledge, this is the first effort towards creating a standard benchmark for Indic languages that aims to test the multilingual zero-shot capabilities of pretrained language models. Finally, we train IndicBERT v2, a state-of-the-art model supporting all the languages. Averaged across languages and tasks, the model achieves an absolute improvement of 2 points over a strong baseline. The data and models are available at https://github.com/AI4Bharat/IndicBERT.

arxiv情報

著者 Sumanth Doddapaneni,Rahul Aralikatte,Gowtham Ramesh,Shreya Goyal,Mitesh M. Khapra,Anoop Kunchukuttan,Pratyush Kumar
発行日 2023-05-24 17:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク