IndicIRSuite: Multilingual Dataset and Neural Information Models for Indian Languages


このペーパーでは、インドの 2 つの主要な言語族 (インド・アーリア語) から、広く話されている 11 のインド言語 (アッサム語、ベンガル語、グジャラート語、ヒンディー語、カンナダ語、マラヤーラム語、マラーティー語、オリヤー語、パンジャブ語、タミル語、テルグ語) の神経情報検索リソースを紹介します。
これらのリソースには、(a) 機械翻訳を使用して作成された 11 のインド言語の MSMARCO データセットの多言語バージョンである INDIC-MARCO、および (b) 次のいずれかでトレーニングされた 11 の異なる単一言語神経情報検索モデルのコレクションである Indic-ColBERT が含まれます。
INDIC-MARCO データセット内の 11 言語。
私たちの知る限り、IndicIRSuite は、多数のインド言語向けに大規模な神経情報検索リソースを構築する初の試みであり、これがインド言語向けのニューラル IR の研究の加速に役立つことを期待しています。
実験の結果、Indic-ColBERT は、オリヤー語を除くインドの 11 言語すべてについて、INDIC-MARCO ベースラインと比較して平均して MRR@10 スコアが 47.47% 向上し、MIRACL ベンガル語およびヒンディー語言語のベースラインと比較して平均して NDCG@10 スコアが 12.26% 向上したことが実証されています。
また、MRR@100 スコアは Mr.Tydi ベンガル語ベースラインより 20% 向上しました。
IndicIRSuite は で入手できます。


In this paper, we introduce Neural Information Retrieval resources for 11 widely spoken Indian Languages (Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil, and Telugu) from two major Indian language families (Indo-Aryan and Dravidian). These resources include (a) INDIC-MARCO, a multilingual version of the MSMARCO dataset in 11 Indian Languages created using Machine Translation, and (b) Indic-ColBERT, a collection of 11 distinct Monolingual Neural Information Retrieval models, each trained on one of the 11 languages in the INDIC-MARCO dataset. To the best of our knowledge, IndicIRSuite is the first attempt at building large-scale Neural Information Retrieval resources for a large number of Indian languages, and we hope that it will help accelerate research in Neural IR for Indian Languages. Experiments demonstrate that Indic-ColBERT achieves 47.47% improvement in the MRR@10 score averaged over the INDIC-MARCO baselines for all 11 Indian languages except Oriya, 12.26% improvement in the NDCG@10 score averaged over the MIRACL Bengali and Hindi Language baselines, and 20% improvement in the MRR@100 Score over the Mr.Tydi Bengali Language baseline. IndicIRSuite is available at


著者 Saiful Haq,Ashutosh Sharma,Pushpak Bhattacharyya
発行日 2023-12-15 03:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.IR パーマリンク