Detecting Suicidality in Arabic Tweets Using Machine Learning and Deep Learning Techniques

要約

ソーシャルメディア・プラットフォームは、世界中の人々が瞬時に、オープンに、そして頻繁につながることを可能にし、従来のコミュニケーション手法に革命をもたらした。人々は個人的なストーリーを共有し、自分の意見を表明するためにソーシャルメディアを利用する。特に若い世代では、死への思い、自傷行為、苦難といった否定的な感情がソーシャルメディア上でよく表現される。その結果、ソーシャルメディアを利用して自殺念慮を検出することは、最終的に自傷行為や自殺を抑止し、ソーシャルメディア上での自殺念慮の拡散を阻止する適切な介入を提供することにつながる。アラビア語のツイートにおける自殺念慮を自動的に検出する能力を調査するために、我々は新しいアラビア語の自殺念慮ツイートデータセットを開発し、単語頻度と単語埋め込み特徴で訓練されたNa’ive Bayes、Support Vector Machine、K-Nearest Neighbor、Random Forest、XGBoostを含むいくつかの機械学習モデルを検討し、アラビア語のツイートにおける自殺念慮を識別するために事前に訓練されたディープラーニングモデル、AraBert、AraELECTRA、AraGPT2の能力を調査した。その結果、文字n-gram特徴で学習したSVMモデルとRFモデルが機械学習モデルの中で最も良い性能を示し、精度は86%、F1スコアは79%であった。ディープラーニングモデルの結果は、AraBertモデルが他の機械学習モデルやディープラーニングモデルを上回り、91%の精度と88%のF1スコアを達成し、アラビア語ツイートデータセットにおける自殺念慮の検出を大幅に改善したことを示している。我々の知る限り、これはTwitterからアラビア語の自殺念慮検出データセットを開発し、アラビア語の投稿における自殺念慮の検出にディープラーニングアプローチを使用した最初の研究である。

要約(オリジナル)

Social media platforms have revolutionized traditional communication techniques by enabling people globally to connect instantaneously, openly, and frequently. People use social media to share personal stories and express their opinion. Negative emotions such as thoughts of death, self-harm, and hardship are commonly expressed on social media, particularly among younger generations. As a result, using social media to detect suicidal thoughts will help provide proper intervention that will ultimately deter others from self-harm and committing suicide and stop the spread of suicidal ideation on social media. To investigate the ability to detect suicidal thoughts in Arabic tweets automatically, we developed a novel Arabic suicidal tweets dataset, examined several machine learning models, including Na\’ive Bayes, Support Vector Machine, K-Nearest Neighbor, Random Forest, and XGBoost, trained on word frequency and word embedding features, and investigated the ability of pre-trained deep learning models, AraBert, AraELECTRA, and AraGPT2, to identify suicidal thoughts in Arabic tweets. The results indicate that SVM and RF models trained on character n-gram features provided the best performance in the machine learning models, with 86% accuracy and an F1 score of 79%. The results of the deep learning models show that AraBert model outperforms other machine and deep learning models, achieving an accuracy of 91\% and an F1-score of 88%, which significantly improves the detection of suicidal ideation in the Arabic tweets dataset. To the best of our knowledge, this is the first study to develop an Arabic suicidality detection dataset from Twitter and to use deep-learning approaches in detecting suicidality in Arabic posts.

arxiv情報

著者 Asma Abdulsalam,Areej Alhothali,Saleh Al-Ghamdi
発行日 2023-09-01 04:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク