Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi

要約

自然言語処理の分野で最も人気のある下流タスクの 1 つはテキスト分類です。
テキストにコードが混在している場合、テキスト分類タスクはさらに困難になります。
事前トレーニング中にそのようなテキストにさらされることはありませんが、さまざまな BERT モデルがコード混合 NLP の課題に取り組むことに成功していることが実証されています。
繰り返しになりますが、パフォーマンスを向上させるために、コード混合 NLP モデルは合成データと実世界のデータを組み合わせることに依存していました。
BERT モデルが、対応するコード混合言語を使用して事前トレーニングされた場合に、そのパフォーマンスにどのような影響を与えるかを理解することが重要です。
このペーパーでは、バングラ語、英語、ヒンディー語で事前トレーニングされた多言語モデルである Tri-Distil-BERT と、コードが混在したデータで微調整されたモデルである Mixed-Distil-BERT を紹介します。
どちらのモデルも複数の NLP タスクにわたって評価され、mBERT や XLM-R のような大規模なモデルに対して競争力のあるパフォーマンスを実証します。
当社の 2 層の事前トレーニング アプローチは、多言語およびコードが混在する言語を理解するための効率的な代替手段を提供し、この分野の進歩に貢献します。

要約(オリジナル)

One of the most popular downstream tasks in the field of Natural Language Processing is text classification. Text classification tasks have become more daunting when the texts are code-mixed. Though they are not exposed to such text during pre-training, different BERT models have demonstrated success in tackling Code-Mixed NLP challenges. Again, in order to enhance their performance, Code-Mixed NLP models have depended on combining synthetic data with real-world data. It is crucial to understand how the BERT models’ performance is impacted when they are pretrained using corresponding code-mixed languages. In this paper, we introduce Tri-Distil-BERT, a multilingual model pre-trained on Bangla, English, and Hindi, and Mixed-Distil-BERT, a model fine-tuned on code-mixed data. Both models are evaluated across multiple NLP tasks and demonstrate competitive performance against larger models like mBERT and XLM-R. Our two-tiered pre-training approach offers efficient alternatives for multilingual and code-mixed language understanding, contributing to advancements in the field.

arxiv情報

著者 Md Nishat Raihan,Dhiman Goswami,Antara Mahmud
発行日 2024-03-14 09:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク