Multi-class Categorization of Reasons behind Mental Disturbance in Long Texts


– 最近のソーシャルメディア投稿からユーザーのメンタル状態を推測することに関する進歩にインスパイアされ、自己報告テキスト内のメンタル疾患の原因を見つける問題を特定し、定式化する。
– 過去にはFacebookデータのカリキュレーションに基づいた原因説明解析のルールベースの研究が存在した。
– Redditの投稿の多クラス原因分類に対するトランスフォーマーベースのモデルの調査は、最大4000語以上含まれる長文を使用する問題を指摘している。一つのインスタンスでの最大長の制限に従ってエンドツーエンドトランスフォーマーベースのモデルを開発することにします。
– 長文に対応するために、Longformerを使い、トランスフォーマーベースの分類器にエンコードします。
– 実験結果は、M-CAMSという公開データセットで62%のF1-スコアを達成し、Longformerが新しい最先端の結果を達成したことを示します。
– 原因に特化した分析と省略研究は、Longformerの有効性を証明しました。
– 私たちは、自殺リスクなどのうつ病や精神的健康状態に対するソーシャルメディアデータ上の原因分析を容易にし、他の精神的健康状態への応用の可能性を示すと信じています。


Motivated with recent advances in inferring users’ mental state in social media posts, we identify and formulate the problem of finding causal indicators behind mental illness in self-reported text. In the past, we witness the presence of rule-based studies for causal explanation analysis on curated Facebook data. The investigation on transformer-based model for multi-class causal categorization in Reddit posts point to a problem of using long-text which contains as many as 4000 words. Developing end-to-end transformer-based models subject to the limitation of maximum-length in a given instance. To handle this problem, we use Longformer and deploy its encoding on transformer-based classifier. The experimental results show that Longformer achieves new state-of-the-art results on M-CAMS, a publicly available dataset with 62\% F1-score. Cause-specific analysis and ablation study prove the effectiveness of Longformer. We believe our work facilitates causal analysis of depression and suicide risk on social media data, and shows potential for application on other mental health conditions.


著者 Muskan Garg
発行日 2023-04-08 22:44:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.CY パーマリンク