Detecting Reddit Users with Depression Using a Hybrid Neural Network SBERT-CNN


うつ病は広範囲にわたるメンタルヘルスの問題であり、世界人口の推定 3.8% が影響を受けています。
また、世界中の障害の主な原因の 1 つでもあります。
最近、個人がソーシャル メディア プラットフォーム (Reddit など) を使用して自分の困難や健康上の問題 (うつ病など) を表現し、オンライン コミュニティで他のユーザーにサポートを求めることが一般的になりつつあります。
潜在的な介入を求めて数百万件の投稿を解析することで、うつ病を患っているソーシャル メディア ユーザーを自動的に特定する大きな機会が開かれます。
深層学習手法は、使いやすさ、効率的な処理、多くの NLP タスクでの最先端の結果により、機械学習と自然言語処理 (NLP) の分野で主流になり始めています。
この研究では、事前学習済み文 BERT (SBERT) と畳み込みニューラル ネットワーク (CNN) を組み合わせたハイブリッド深層学習モデルを提案し、Reddit の投稿でうつ病患者を検出します。
文 BERT は、各投稿の意味情報の意味のある表現を学習するために使用されます。
CNN を使用すると、これらの埋め込みをさらに変換し、ユーザーの行動パターンを一時的に識別することができます。
私たちは、自己申告によるメンタルヘルス診断 (SMHD) データを利用して、うつ病を患っている Reddit ユーザーを特定するためにモデルのパフォーマンスをトレーニングおよび評価しました。
ハイブリッド深層学習モデルは精度 0.86、F1 スコア 0.86 を達成し、文献にある他の機械学習モデルによる最先端の文書化された結果 (F1 スコア 0.79) を上回りました。
この結果は、うつ病患者を特定するためのハイブリッド モデルの実現可能性を示しています。
ハイブリッド モデルは Reddit の投稿でうつ病を検出することが検証されていますが、簡単に調整して他のテキスト分類タスクやさまざまな臨床アプリケーションに適用することができます。


Depression is a widespread mental health issue, affecting an estimated 3.8% of the global population. It is also one of the main contributors to disability worldwide. Recently it is becoming popular for individuals to use social media platforms (e.g., Reddit) to express their difficulties and health issues (e.g., depression) and seek support from other users in online communities. It opens great opportunities to automatically identify social media users with depression by parsing millions of posts for potential interventions. Deep learning methods have begun to dominate in the field of machine learning and natural language processing (NLP) because of their ease of use, efficient processing, and state-of-the-art results on many NLP tasks. In this work, we propose a hybrid deep learning model which combines a pretrained sentence BERT (SBERT) and convolutional neural network (CNN) to detect individuals with depression with their Reddit posts. The sentence BERT is used to learn the meaningful representation of semantic information in each post. CNN enables the further transformation of those embeddings and the temporal identification of behavioral patterns of users. We trained and evaluated the model performance to identify Reddit users with depression by utilizing the Self-reported Mental Health Diagnoses (SMHD) data. The hybrid deep learning model achieved an accuracy of 0.86 and an F1 score of 0.86 and outperformed the state-of-the-art documented result (F1 score of 0.79) by other machine learning models in the literature. The results show the feasibility of the hybrid model to identify individuals with depression. Although the hybrid model is validated to detect depression with Reddit posts, it can be easily tuned and applied to other text classification tasks and different clinical applications.


著者 Ziyi Chen,Ren Yang,Sunyang Fu,Nansu Zong,Hongfang Liu,Ming Huang
発行日 2024-01-29 16:59:09+00:00
arxivサイト arxiv_id(pdf)

