要約
世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用しています。
感情認識 – いくつかのNLPタスクの傘の用語 – は、NLPや他の分野のさまざまなアプリケーションに大きな影響を与えますが、この地域でのほとんどの作業は高リソース言語に焦点を当てています。
したがって、これにより、特に高品質のデータセットの不足に悩まされている低リソース言語の研究と提案されたソリューションの大きな格差が生じています。
このホワイトペーパーでは、28の異なる言語での多面的な感情発音のデータセットのコレクションであるBrightを紹介します。
Brightは、アフリカ、アジア、東ヨーロッパ、ラテンアメリカの主に低リソース言語をカバーしており、流fluentスピーカーが注釈が付けられたさまざまなドメインの事例をカバーしています。
データ収集と注釈プロセス、およびこれらのデータセットを構築することの課題について説明します。
次に、単一言語および横断的多面的な感情の識別、および強度レベルの感情認識のためのさまざまな実験結果を報告します。
LLMSを使用した場合とせずに結果を調査し、言語とテキストドメイン間のパフォーマンスの大きなばらつきを分析します。
明るいデータセットが、テキストベースの感情認識のギャップを埋め、その影響と有用性について議論するための一歩であることを示します。
要約(オリジナル)
People worldwide use language in subtle and complex ways to express emotions. While emotion recognition — an umbrella term for several NLP tasks — significantly impacts different applications in NLP and other fields, most work in the area is focused on high-resource languages. Therefore, this has led to major disparities in research and proposed solutions, especially for low-resource languages that suffer from the lack of high-quality datasets. In this paper, we present BRIGHTER — a collection of multilabeled emotion-annotated datasets in 28 different languages. BRIGHTER covers predominantly low-resource languages from Africa, Asia, Eastern Europe, and Latin America, with instances from various domains annotated by fluent speakers. We describe the data collection and annotation processes and the challenges of building these datasets. Then, we report different experimental results for monolingual and crosslingual multi-label emotion identification, as well as intensity-level emotion recognition. We investigate results with and without using LLMs and analyse the large variability in performance across languages and text domains. We show that BRIGHTER datasets are a step towards bridging the gap in text-based emotion recognition and discuss their impact and utility.
arxiv情報
著者 | Shamsuddeen Hassan Muhammad,Nedjma Ousidhoum,Idris Abdulmumin,Jan Philip Wahle,Terry Ruas,Meriem Beloucif,Christine de Kock,Nirmal Surange,Daniela Teodorescu,Ibrahim Said Ahmad,David Ifeoluwa Adelani,Alham Fikri Aji,Felermino D. M. A. Ali,Ilseyar Alimova,Vladimir Araujo,Nikolay Babakov,Naomi Baes,Ana-Maria Bucur,Andiswa Bukula,Guanqun Cao,Rodrigo Tufino Cardenas,Rendi Chevi,Chiamaka Ijeoma Chukwuneke,Alexandra Ciobotaru,Daryna Dementieva,Murja Sani Gadanya,Robert Geislinger,Bela Gipp,Oumaima Hourrane,Oana Ignat,Falalu Ibrahim Lawan,Rooweither Mabuya,Rahmad Mahendra,Vukosi Marivate,Andrew Piper,Alexander Panchenko,Charles Henrique Porto Ferreira,Vitaly Protasov,Samuel Rutunda,Manish Shrivastava,Aura Cristina Udrea,Lilian Diana Awuor Wanzare,Sophie Wu,Florian Valentin Wunderlich,Hanif Muhammad Zhafran,Tianhui Zhang,Yi Zhou,Saif M. Mohammad |
発行日 | 2025-03-10 12:20:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google