L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages


L3Cube-IndicNewsは、インドの地域言語、特にニュースの見出しや記事に焦点を当てた、高品質なデータセットを構築することを目的とした多言語テキスト分類コーパスである。私たちは、ヒンディー語、ベンガル語、マラーティー語、テルグ語、タミル語、グジャラート語、カンナダ語、オディア語、マラヤーラム語、パンジャブ語を含む10の著名なインド系言語を中心に研究を進めてきた。これらのニュースデータセットは、それぞれ10クラス以上のニュース記事から構成されている。L3Cube-IndicNewsは、文書の長さが異なる3つのデータセットを提供しています:Short Headlines Classification (SHC) データセットはニュースの見出しとニュースカテゴリ、Long Document Classification (LDC) データセットはニュース記事全体とニュースカテゴリ、Long Paragraph Classification (LPC) データセットはニュースのサブ記事とニュースカテゴリである。長さに基づく詳細な分析のため、3つのデータセットすべてにおいて一貫したラベリングを維持する。単言語BERT、多言語Indic Sentence BERT(IndicSBERT)、IndicBERTを含む4つの異なるモデルを用いて、これらのIndic言語データセットのそれぞれを評価する。この研究は、利用可能なテキスト分類データセットのプールを拡大することに大きく貢献し、インド地域言語のトピック分類モデルを開発することも可能にする。また、言語間のラベルの重複が多いため、クロスリンガル分析のための優れたリソースとしても役立ちます。データセットとモデルは https://github.com/l3cube-pune/indic-nlp で公開されている。


In this work, we introduce L3Cube-IndicNews, a multilingual text classification corpus aimed at curating a high-quality dataset for Indian regional languages, with a specific focus on news headlines and articles. We have centered our work on 10 prominent Indic languages, including Hindi, Bengali, Marathi, Telugu, Tamil, Gujarati, Kannada, Odia, Malayalam, and Punjabi. Each of these news datasets comprises 10 or more classes of news articles. L3Cube-IndicNews offers 3 distinct datasets tailored to handle different document lengths that are classified as: Short Headlines Classification (SHC) dataset containing the news headline and news category, Long Document Classification (LDC) dataset containing the whole news article and the news category, and Long Paragraph Classification (LPC) containing sub-articles of the news and the news category. We maintain consistent labeling across all 3 datasets for in-depth length-based analysis. We evaluate each of these Indic language datasets using 4 different models including monolingual BERT, multilingual Indic Sentence BERT (IndicSBERT), and IndicBERT. This research contributes significantly to expanding the pool of available text classification datasets and also makes it possible to develop topic classification models for Indian regional languages. This also serves as an excellent resource for cross-lingual analysis owing to the high overlap of labels among languages. The datasets and models are shared publicly at https://github.com/l3cube-pune/indic-nlp


著者 Aishwarya Mirashi,Srushti Sonavane,Purva Lingayat,Tejas Padhiyar,Raviraj Joshi
発行日 2024-01-04 13:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク