Transformer-based Text Classification on Unified Bangla Multi-class Emotion Corpus

要約

タイトル: Transformer-based Text Classification on Unified Bangla Multi-class Emotion Corpus
要約:
– エモーション分類は、Web 2.0サービスにおける人々の思考を研究する上で重要な課題である。
– 現在のエモーション分類の研究は、低リソース言語にはほとんど行われておらず、主に英語に焦点を当てている。
– バングラ語におけるエモーション分析には、近年注目が集まっているが、研究が不十分である。
– 本研究では、トランスフォーマーベースのモデルを使用して、バングラ語テキストから6つのエモーション(怒り、嫌悪、恐怖、喜び、悲しみ、驚き)を分類する手法を提案する。
– 性能評価には、バングラ語のコメントに対する6つのエモーション分類の手動ラベル付きデータセット2つと、本研究で作成した手動タグ付きバングラコメントを組み合わせた「Unified Bangla Multi-class Emotion Corpus」(UBMEC)を使用する。
– 本研究で使用したデータセットとコードは公開されている。

要約(オリジナル)

Because of its importance in studying people’s thoughts on various Web 2.0 services, emotion classification (EC) is an important undertaking. Existing research, on the other hand, is mostly focused on the English language, with little work on low-resource languages. Though sentiment analysis, particularly the EC in English, has received a lot of attention in recent years, little study has been done in the context of Bangla, one of the world’s most widely spoken languages. We propose a complete set of approaches for identifying and extracting emotions from Bangla texts in this research. We provide a Bangla emotion classifier for six classes (anger, disgust, fear, joy, sadness, and surprise) from Bangla words, using transformer-based models which exhibit phenomenal results in recent days, especially for high resource languages. The ‘Unified Bangla Multi-class Emotion Corpus (UBMEC)’ is used to assess the performance of our models. UBMEC was created by combining two previously released manually labeled datasets of Bangla comments on 6-emotion classes with fresh manually tagged Bangla comments created by us. The corpus dataset and code we used in this work is publicly available.

arxiv情報

著者 Md Sakib Ullah Sourav,Huidong Wang
発行日 2023-04-29 16:46:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク