MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis

要約

この論文では、マガヒ語がリソースの少ない少数言語であるマガヒ語・ヒンディー語・英語(MHE)コード混合言語の新しい感情データ MaCMS を紹介します。
このデータセットは、感情分析タスク用の初のマガヒ語、ヒンディー語、英語のコードが混合されたデータセットです。
さらに、コード混合の構造を理解するためのデータセットの言語学的分析と、異なる極性を持つ話者の言語の好みを理解するための統計的研究も提供します。
これらの分析により、データセットの品質を評価するためのベースライン モデルもトレーニングします。

要約(オリジナル)

The present paper introduces new sentiment data, MaCMS, for Magahi-Hindi-English (MHE) code-mixed language, where Magahi is a less-resourced minority language. This dataset is the first Magahi-Hindi-English code-mixed dataset for sentiment analysis tasks. Further, we also provide a linguistics analysis of the dataset to understand the structure of code-mixing and a statistical study to understand the language preferences of speakers with different polarities. With these analyses, we also train baseline models to evaluate the dataset’s quality.

arxiv情報

著者 Priya Rani,Gaurav Negi,Theodorus Fransen,John P. McCrae
発行日 2024-03-07 16:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク