Risk prediction of pathological gambling on social media

要約

この論文では、ソーシャル メディア データのリスク予測の問題を扱い、特に Reddit ユーザーを病的ギャンブル障害を持つものとして分類することに焦点を当てています。
この問題に取り組むために、この論文では時間的特徴と感情的特徴をモデルに組み込むことに焦点を当てています。
前処理フェーズには、パディングシーケンスによるポストの時間的不規則性への対処が含まれます。
予備評価には 2 つのベースライン アーキテクチャが使用されます。ユーザーごとに連結された投稿に対する BERT 分類器と、連続データに対する LSTM を備えた GRU です。
実験結果は、逐次モデルが連結ベースのモデルよりも優れていることを示しています。
実験の結果、時間減衰層 (TD) を組み込み、感情分類層 (EmoBERTa) を LSTM に通すことで、パフォーマンスが大幅に向上すると結論付けられました。
実験の結果、自己注意レイヤーを追加してもモデルのパフォーマンスは大幅に改善されなかったものの、解釈しやすい注意スコアが得られたと結論づけられました。
EmoBERTa 層と TD 層を含めて開発されたアーキテクチャは、病的ギャンブル データセットの既存のベンチマークを上回る高い F1 スコアを達成しました。
今後の研究には、病的ギャンブル障害に関連する危険因子の早期予測や、他のデータセットでのモデルのテストが含まれる可能性があります。
全体として、この研究は、予測力を高めるための時間的および感情的特徴を含む投稿の逐次処理の重要性、および解釈可能性のための注意レイヤーの追加の重要性を強調しています。

要約(オリジナル)

This paper addresses the problem of risk prediction on social media data, specifically focusing on the classification of Reddit users as having a pathological gambling disorder. To tackle this problem, this paper focuses on incorporating temporal and emotional features into the model. The preprocessing phase involves dealing with the time irregularity of posts by padding sequences. Two baseline architectures are used for preliminary evaluation: BERT classifier on concatenated posts per user and GRU with LSTM on sequential data. Experimental results demonstrate that the sequential models outperform the concatenation-based model. The results of the experiments conclude that the incorporation of a time decay layer (TD) and passing the emotion classification layer (EmoBERTa) through LSTM improves the performance significantly. Experiments concluded that the addition of a self-attention layer didn’t significantly improve the performance of the model, however provided easily interpretable attention scores. The developed architecture with the inclusion of EmoBERTa and TD layers achieved a high F1 score, beating existing benchmarks on pathological gambling dataset. Future work may involve the early prediction of risk factors associated with pathological gambling disorder and testing models on other datasets. Overall, this research highlights the significance of the sequential processing of posts including temporal and emotional features to boost the predictive power, as well as adding an attention layer for interpretability.

arxiv情報

著者 Angelina Parfenova,Marianne Clausel
発行日 2024-03-28 12:17:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク