要約
自殺念慮の頻度が増加していることから、早期発見と介入の重要性が浮き彫りになっている。ユーザーが個人的な経験を共有し、助けを求めることが多いソーシャルメディア・プラットフォームは、リスクのある個人を特定するために利用できる。しかし、毎日大量の投稿があるため、手作業によるレビューは非現実的である。本論文では、大規模言語モデル(Large Language Models:LLM)を用いて、テキストベースのソーシャルメディア投稿から自殺的な内容を自動的に検出する方法を検討する。ラベル精度を向上させるための伝統的な分類の微調整技術とともに、LLMをプロンプトとすることで、ラベルのないデータに対して擬似ラベルを生成する新しい方法を提案する。強力な自殺検出モデルを作成するために、Qwen2-72B-Instructによるプロンプト生成と、Llama3-8B、Llama3.1-8B、Gemma2-9Bなどのファインチューニングモデルを用いたアンサンブルアプローチを開発する。IEEE Big Data 2024 Big Data CupのトラックであるSuicide Ideation Detection on Social Media Challengeのデータセットで我々のアプローチを評価する。さらに、異なるモデルと微調整戦略が検出性能に与える影響を評価するために包括的な分析を行う。実験結果によると、アンサンブルモデルは、個々のモデルと比較して、検出精度を5%ポイント大幅に向上させた。これは、公開テストセットで0.770、プライベートテストセットで0.731の重み付けF1スコアを達成し、ソーシャルメディア内の自殺コンテンツを識別するための有望なソリューションを提供する。我々の分析は、LLMの選択がプロンプトの性能に影響を与え、より大きなモデルがより良い精度を提供することを示している。我々のコードとチェックポイントは https://github.com/khanhvynguyen/Suicide_Detection_LLMs で公開されている。
要約(オリジナル)
The increasing frequency of suicidal thoughts highlights the importance of early detection and intervention. Social media platforms, where users often share personal experiences and seek help, could be utilized to identify individuals at risk. However, the large volume of daily posts makes manual review impractical. This paper explores the use of Large Language Models (LLMs) to automatically detect suicidal content in text-based social media posts. We propose a novel method for generating pseudo-labels for unlabeled data by prompting LLMs, along with traditional classification fine-tuning techniques to enhance label accuracy. To create a strong suicide detection model, we develop an ensemble approach involving prompting with Qwen2-72B-Instruct, and using fine-tuned models such as Llama3-8B, Llama3.1-8B, and Gemma2-9B. We evaluate our approach on the dataset of the Suicide Ideation Detection on Social Media Challenge, a track of the IEEE Big Data 2024 Big Data Cup. Additionally, we conduct a comprehensive analysis to assess the impact of different models and fine-tuning strategies on detection performance. Experimental results show that the ensemble model significantly improves the detection accuracy, by 5% points compared with the individual models. It achieves a weight F1 score of 0.770 on the public test set, and 0.731 on the private test set, providing a promising solution for identifying suicidal content in social media. Our analysis shows that the choice of LLMs affects the prompting performance, with larger models providing better accuracy. Our code and checkpoints are publicly available at https://github.com/khanhvynguyen/Suicide_Detection_LLMs.
arxiv情報
著者 | Vy Nguyen,Chau Pham |
発行日 | 2024-11-01 03:42:37+00:00 |
arxivサイト | arxiv_id(pdf) |