SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis

要約

ソーシャルメディアでは、ユーザーは頻繁に個人的な感情を表現しており、その一部は潜在的な自殺傾向を示している可能性があります。
インターネット言語における暗黙的かつ多様な表現形態は、ソーシャルメディア上での自殺意図の正確かつ迅速な特定を困難にし、タイムリーな介入の取り組みに課題をもたらしています。
自殺リスク検出のための深層学習モデルの開発は有望な解決策ですが、特に中国の状況では、関連するデータセットが著しく不足しています。
このギャップに対処するために、この研究では、自殺の意図の表現、自殺の方法、タイミングの緊急性などの指標に焦点を当て、詳細な自殺リスク分類用に設計された中国のソーシャルメディアデータセットを紹介します。
7 つの事前トレーニング済みモデルが、高自殺リスクと低自殺リスク、および 0 ~ 10 のレベルでの詳細な自殺リスク分類という 2 つのタスクで評価されました。私たちの実験では、深層学習モデルは、自殺リスクの高さと低さを区別する際に優れたパフォーマンスを示しました。
、最高のモデルは 88.39% の F1 スコアを達成しました。
しかし、きめ細かい自殺リスク分類の結果は依然として満足のいくものではなく、加重 F1 スコアは 50.89% でした。
データの不均衡と限られたデータセット サイズの問題に対処するために、従来および先進的な大規模言語モデル ベースのデータ拡張手法を調査し、データ拡張によってモデルのパフォーマンスが F1 スコアで最大 4.65% ポイント向上できることを実証しました。
特に、心理領域データで事前トレーニングされた中国の MentalBERT モデルは、両方のタスクで優れたパフォーマンスを示しています。
この研究は、自殺志願者を自動的に特定するための貴重な洞察を提供し、ソーシャルメディアプラットフォームでのタイムリーな心理的介入を促進します。
ソースコードとデータは公開されています。

要約(オリジナル)

In the social media, users frequently express personal emotions, a subset of which may indicate potential suicidal tendencies. The implicit and varied forms of expression in internet language complicate accurate and rapid identification of suicidal intent on social media, thus creating challenges for timely intervention efforts. The development of deep learning models for suicide risk detection is a promising solution, but there is a notable lack of relevant datasets, especially in the Chinese context. To address this gap, this study presents a Chinese social media dataset designed for fine-grained suicide risk classification, focusing on indicators such as expressions of suicide intent, methods of suicide, and urgency of timing. Seven pre-trained models were evaluated in two tasks: high and low suicide risk, and fine-grained suicide risk classification on a level of 0 to 10. In our experiments, deep learning models show good performance in distinguishing between high and low suicide risk, with the best model achieving an F1 score of 88.39%. However, the results for fine-grained suicide risk classification were still unsatisfactory, with an weighted F1 score of 50.89%. To address the issues of data imbalance and limited dataset size, we investigated both traditional and advanced, large language model based data augmentation techniques, demonstrating that data augmentation can enhance model performance by up to 4.65% points in F1-score. Notably, the Chinese MentalBERT model, which was pre-trained on psychological domain data, shows superior performance in both tasks. This study provides valuable insights for automatic identification of suicidal individuals, facilitating timely psychological intervention on social media platforms. The source code and data are publicly available.

arxiv情報

著者 Hongzhi Qi,Hanfei Liu,Jianqiang Li,Qing Zhao,Wei Zhai,Dan Luo,Tian Yu He,Shuo Liu,Bing Xiang Yang,Guanghui Fu
発行日 2024-04-19 06:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク