要約
コード混合データに関する研究は、専用のコード混合データセットと事前トレーニングされた言語モデルが利用できないため、制限されています。
この作業では、コード混合に関するこれまでの作業が不足している、リソースの少ないインドの言語マラーティー語に焦点を当てます。
我々は、事前トレーニング用に 1,000 万のソーシャル メディア文を含む、コードが混合された大規模なマラーティー語と英語 (Mr-En) コーパスである L3Cube-MeCorpus を紹介します。
また、MeCorpus で事前トレーニングされたコード混合 BERT ベースのトランスフォーマー モデルである L3Cube-MeBERT および MeRoBERTa もリリースします。
さらに、ベンチマークのために、コード混合の Mr-En ヘイトスピーチ検出、感情分析、言語識別などの下流タスク用に、それぞれ MeHate、MeSent、MeLID という 3 つの教師ありデータセットを提示します。
これらの評価データセットは、手動で注釈が付けられた \url{~}12,000 件のマラーティー語と英語のコードが混在したツイートで個別に構成されています。
アブレーションにより、この新しいコーパスでトレーニングされたモデルが既存の最先端の BERT モデルよりも大幅に優れていることがわかります。
これは、コード混合マラーティー語研究の成果物を提示する最初の作品です。
すべてのデータセットとモデルは https://github.com/l3cube-pune/MarathiNLP で公開されています。
要約(オリジナル)
The research on code-mixed data is limited due to the unavailability of dedicated code-mixed datasets and pre-trained language models. In this work, we focus on the low-resource Indian language Marathi which lacks any prior work in code-mixing. We present L3Cube-MeCorpus, a large code-mixed Marathi-English (Mr-En) corpus with 10 million social media sentences for pretraining. We also release L3Cube-MeBERT and MeRoBERTa, code-mixed BERT-based transformer models pre-trained on MeCorpus. Furthermore, for benchmarking, we present three supervised datasets MeHate, MeSent, and MeLID for downstream tasks like code-mixed Mr-En hate speech detection, sentiment analysis, and language identification respectively. These evaluation datasets individually consist of manually annotated \url{~}12,000 Marathi-English code-mixed tweets. Ablations show that the models trained on this novel corpus significantly outperform the existing state-of-the-art BERT models. This is the first work that presents artifacts for code-mixed Marathi research. All datasets and models are publicly released at https://github.com/l3cube-pune/MarathiNLP .
arxiv情報
著者 | Tanmay Chavan,Omkar Gokhale,Aditya Kane,Shantanu Patankar,Raviraj Joshi |
発行日 | 2023-07-20 13:54:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google