要約
コード混合談話では、複数の言語が 1 つのテキストに組み合わされます。
これは、複数の公用語がある国で非公式な会話で一般的に使用されますが、他の多くの国でも英語または近隣の言語と組み合わせて使用されます。
最近、大規模な言語モデルがほとんどの自然言語処理タスクを支配しているため、関連するタスクのコードが混在した設定でのパフォーマンスを調査しました。
まず、特に非公式言語をサポートすることを目的として、英語 – ヒンディー語および英語 – スロベニア語用の 4 つの新しいバイリンガルの事前トレーニング済みマスク言語モデルを作成しました。
次に、コード混合テキストを頻繁に含む 2 つのタスク、特にソーシャル メディア テキストにおける感情分析と攻撃的な言語の検出を使用して、いくつかの言語について単言語モデル、二言語モデル、少数言語モデル、および大規模多言語モデルの評価を実行しました。
その結果、最も成功した分類器はソーシャル メディア テキストに特化した微調整された二言語モデルと多言語モデルであり、次に特化されていない大規模な多言語モデルと単言語モデルが続きますが、巨大な生成モデルは競争力がないことがわかります。
感情的な問題の場合、モデルはほとんどの場合、コードが混合されていないデータと比較して、コードが混合されたデータの方がわずかに優れたパフォーマンスを示します。
要約(オリジナル)
Code-mixed discourse combines multiple languages in a single text. It is commonly used in informal discourse in countries with several official languages, but also in many other countries in combination with English or neighboring languages. As recently large language models have dominated most natural language processing tasks, we investigated their performance in code-mixed settings for relevant tasks. We first created four new bilingual pre-trained masked language models for English-Hindi and English-Slovene languages, specifically aimed to support informal language. Then we performed an evaluation of monolingual, bilingual, few-lingual, and massively multilingual models on several languages, using two tasks that frequently contain code-mixed text, in particular, sentiment analysis and offensive language detection in social media texts. The results show that the most successful classifiers are fine-tuned bilingual models and multilingual models, specialized for social media texts, followed by non-specialized massively multilingual and monolingual models, while huge generative models are not competitive. For our affective problems, the models mostly perform slightly better on code-mixed data compared to non-code-mixed data.
arxiv情報
著者 | Anjali Yadav,Tanya Garg,Matej Klemen,Matej Ulcar,Basant Agarwal,Marko Robnik Sikonja |
発行日 | 2024-05-21 16:56:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google