My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models and Evaluation Benchmarks

要約

コード混合データに関する研究は、専用のコード混合データセットと事前トレーニングされた言語モデルが利用できないため、制限されています。
この作業では、コード混合に関するこれまでの作業が不足している、リソースの少ないインドの言語マラーティー語に焦点を当てます。
我々は、事前トレーニング用に 1,000 万のソーシャル メディア文を含む、コードが混合された大規模なマラーティー語と英語 (Mr-En) コーパスである L3Cube-MeCorpus を紹介します。
また、MeCorpus で事前トレーニングされたコード混合 BERT ベースのトランスフォーマー モデルである L3Cube-MeBERT および MeRoBERTa もリリースします。
さらに、ベンチマークのために、コード混合の Mr-En ヘイトスピーチ検出、感情分析、言語識別などの下流タスク用に、それぞれ MeHate、MeSent、MeLID という 3 つの教師ありデータセットを提示します。
これらの評価データセットは、手動で注釈が付けられた \url{~}12,000 件のマラーティー語と英語のコードが混在したツイートで個別に構成されています。
アブレーションにより、この新しいコーパスでトレーニングされたモデルが既存の最先端の BERT モデルよりも大幅に優れていることがわかります。
これは、コード混合マラーティー語研究の成果物を提示する最初の作品です。
すべてのデータセットとモデルは https://github.com/l3cube-pune/MarathiNLP で公開されています。

要約(オリジナル)

The research on code-mixed data is limited due to the unavailability of dedicated code-mixed datasets and pre-trained language models. In this work, we focus on the low-resource Indian language Marathi which lacks any prior work in code-mixing. We present L3Cube-MeCorpus, a large code-mixed Marathi-English (Mr-En) corpus with 10 million social media sentences for pretraining. We also release L3Cube-MeBERT and MeRoBERTa, code-mixed BERT-based transformer models pre-trained on MeCorpus. Furthermore, for benchmarking, we present three supervised datasets MeHate, MeSent, and MeLID for downstream tasks like code-mixed Mr-En hate speech detection, sentiment analysis, and language identification respectively. These evaluation datasets individually consist of manually annotated \url{~}12,000 Marathi-English code-mixed tweets. Ablations show that the models trained on this novel corpus significantly outperform the existing state-of-the-art BERT models. This is the first work that presents artifacts for code-mixed Marathi research. All datasets and models are publicly released at https://github.com/l3cube-pune/MarathiNLP .

arxiv情報

著者 Tanmay Chavan,Omkar Gokhale,Aditya Kane,Shantanu Patankar,Raviraj Joshi
発行日 2023-07-20 13:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク