要約
この論文では、アフガニスタンで話されているペルシア語のダリ語変種の感情注釈付きの最初のデータセットを紹介します。
LetHerLearn データセットには、2022 年にタリバンが女性の教育を受ける権利を禁止したことに反応して投稿された 7,600 件のツイートが含まれており、エクマンの感情カテゴリに従って手動で注釈が付けられています。
ここでは、データ収集とアノテーションのプロセスを詳しく説明し、関連するデータセットの統計と結果として得られたデータセットの初期実験を示し、Dari 感情分類タスク用のさまざまなニューラル アーキテクチャのベンチマークを行います。
要約(オリジナル)
This paper introduces the first emotion annotated dataset for the Dari variant of Persian spoken in Afghanistan. The LetHerLearn dataset contains 7,600 tweets posted in reaction to the Taliban ban of women rights to education in 2022 and has been manually annotated according to Ekman emotion categories. We here detail the data collection and annotation process, present relevant dataset statistics as well as initial experiments on the resulting dataset, benchmarking a number of different neural architectures for the task of Dari emotion classification.
arxiv情報
著者 | Mohammad Ali Hussiny,Lilja Øvrelid |
発行日 | 2023-06-28 14:50:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google