SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis

要約

コードミキシングは、テキストや音声の中で 2 つ以上の言語が混合される、よく研究されている言語現象です。
コード混合のための計算モデルをトレーニングすることを目的として、いくつかのデータセットが構築されています。
複数の言語が混在するコードが観察されることは非常に一般的ですが、利用可能なほとんどのデータセットには 2 つの言語のみが混在するコードが含まれています。
この論文では、バングラ語、英語、ヒンディー語の 3 つの言語間のコード混合データを含む感情分析用の新しいデータセットである SentMix-3L を紹介します。
SentMix-3Lを用いて総合評価を実施します。
GPT-3.5 によるゼロショット プロンプトが、SentMix-3L 上のすべてのトランスベース モデルよりも優れていることを示します。

要約(オリジナル)

Code-mixing is a well-studied linguistic phenomenon when two or more languages are mixed in text or speech. Several datasets have been build with the goal of training computational models for code-mixing. Although it is very common to observe code-mixing with multiple languages, most datasets available contain code-mixed between only two languages. In this paper, we introduce SentMix-3L, a novel dataset for sentiment analysis containing code-mixed data between three languages Bangla, English, and Hindi. We carry out a comprehensive evaluation using SentMix-3L. We show that zero-shot prompting with GPT-3.5 outperforms all transformer-based models on SentMix-3L.

arxiv情報

著者 Md Nishat Raihan,Dhiman Goswami,Antara Mahmud,Antonios Anastasopoulos,Marcos Zampieri
発行日 2023-11-29 10:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク