Data Quality Matters: Suicide Intention Detection on Social Media Posts Using RoBERTa-CNN

要約

自殺は依然として世界的な健康上の差し迫った懸念であり、早期発見と介入のための革新的なアプローチが必要です。
この論文は、最先端の RoBERTa-CNN モデルを利用した新しい深層学習アプローチを提案することにより、SuicideWatch サブレディットからの投稿における自殺意図の特定に焦点を当てています。
堅牢に最適化された BERT 事前トレーニング アプローチ (RoBERTa) は、テキストのニュアンスを捕捉し、テキスト内の意味関係を形成することに優れています。
残りの畳み込みニューラル ネットワーク (CNN) ヘッドは、広範なデータセットから重要なパターンを識別する RoBERTa の能力を強化します。
RoBERTa-CNN を評価するために、自殺とうつ病の検出データセットで実験を実施し、有望な結果が得られました。
たとえば、RoBERTa-CNN は、標準偏差 (STD) 0.0009 で 98% の平均精度を達成します。
さらに、データ品質が堅牢なモデルのトレーニングに大きな影響を与えることもわかりました。
データ品質を向上させるために、手動でクリーニングするか OpenAI API を利用することでコンテキスト コンテンツを維持しながら、テキスト データからノイズを除去しました。

要約(オリジナル)

Suicide remains a pressing global health concern, necessitating innovative approaches for early detection and intervention. This paper focuses on identifying suicidal intentions in posts from the SuicideWatch subreddit by proposing a novel deep-learning approach that utilizes the state-of-the-art RoBERTa-CNN model. The robustly Optimized BERT Pretraining Approach (RoBERTa) excels at capturing textual nuances and forming semantic relationships within the text. The remaining Convolutional Neural Network (CNN) head enhances RoBERTa’s capacity to discern critical patterns from extensive datasets. To evaluate RoBERTa-CNN, we conducted experiments on the Suicide and Depression Detection dataset, yielding promising results. For instance, RoBERTa-CNN achieves a mean accuracy of 98% with a standard deviation (STD) of 0.0009. Additionally, we found that data quality significantly impacts the training of a robust model. To improve data quality, we removed noise from the text data while preserving its contextual content through either manually cleaning or utilizing the OpenAI API.

arxiv情報

著者 Emily Lin,Jian Sun,Hsingyu Chen,Mohammad H. Mahoor
発行日 2024-12-20 18:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク