DepressionEmo: A novel dataset for multilabel classification of depression emotions


この論文では、Reddit ユーザーの長い投稿 6,037 例からうつ病に関連する 8 つの感情を検出するように設計された DepressionEmo という名前の新しいデータセットを紹介します。
このデータセットは、事前トレーニングされたモデルからのゼロショット分類による入力に対する多数決を通じて作成され、アノテーターと ChatGPT による品質の検証により、アノテーター間の許容レベルの評価者間信頼性が示されました。
DepressionEmo では、感情間の相関関係、時間の経過に伴う分布、言語分析が行われます。
さらに、SVM、XGBoost、Light GBM などの機械学習手法と、SVM、XGBoost、Light GBM などの機械学習手法の 2 つのグループに分類されるいくつかのテキスト分類手法を提供します。
事前トレーニングされた BART モデル bart-base を使用すると、最高の F1-Macro 0.76 を取得でき、分析で評価した他の方法と比較して優れたパフォーマンスを示しています。
すべての感情において、最も高い F1-Macro 値は自殺意図によって達成されており、テキスト分析を通じてうつ病の症状を持つ個人の感情を特定する際のデータセットの一定の価値を示しています。
厳選されたデータセットは、 で公開されています。


Emotions are integral to human social interactions, with diverse responses elicited by various situational contexts. Particularly, the prevalence of negative emotional states has been correlated with negative outcomes for mental health, necessitating a comprehensive analysis of their occurrence and impact on individuals. In this paper, we introduce a novel dataset named DepressionEmo designed to detect 8 emotions associated with depression by 6037 examples of long Reddit user posts. This dataset was created through a majority vote over inputs by zero-shot classifications from pre-trained models and validating the quality by annotators and ChatGPT, exhibiting an acceptable level of interrater reliability between annotators. The correlation between emotions, their distribution over time, and linguistic analysis are conducted on DepressionEmo. Besides, we provide several text classification methods classified into two groups: machine learning methods such as SVM, XGBoost, and Light GBM; and deep learning methods such as BERT, GAN-BERT, and BART. The pretrained BART model, bart-base allows us to obtain the highest F1- Macro of 0.76, showing its outperformance compared to other methods evaluated in our analysis. Across all emotions, the highest F1-Macro value is achieved by suicide intent, indicating a certain value of our dataset in identifying emotions in individuals with depression symptoms through text analysis. The curated dataset is publicly available at:


著者 Abu Bakar Siddiqur Rahman,Hoang-Thang Ta,Lotfollah Najjar,Azad Azadmanesh,Ali Saffet Gönül
発行日 2024-01-09 16:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク