Supervised Learning and Large Language Model Benchmarks on Mental Health Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media

要約

ソーシャルメディアの領域では、ユーザーは個人的な感情を頻繁に伝え、中には認知の歪みや自殺傾向を示唆する可能性のあるユーザーもいます。
効果的な介入には、そのような兆候をタイムリーに認識することが極めて重要です。
これに応えて、認知の歪みと自殺リスク分類に焦点を当てた、中国のソーシャル メディアからの 2 つの新しい注釈付きデータセットを紹介します。
これらのデータセットのパフォーマンスを評価するために、教師あり学習モデルと大規模言語モデル (特に GPT シリーズ) の両方を使用した包括的なベンチマークを提案します。
大規模な言語モデルの機能を評価するために、ゼロショット、少数ショット、微調整という 3 つの戦略を採用しました。
さらに、これらの大規模な言語モデルのパフォーマンスを心理学の観点から深く調査および分析し、複雑な人間の感情を特定して理解する際の言語モデルの長所と限界を明らかにしました。
私たちの評価では、2 つのアプローチ間のパフォーマンスの違いが強調されており、モデルには微妙なカテゴリの区別がつきものです。
GPT-4 は一貫して優れた結果をもたらしましたが、GPT-3.5 は微調整後に自殺リスク分類において顕著な改善を示しました。
この研究は、中国語のソーシャルメディアタスクの大規模言語モデルの評価において画期的であり、心理学的文脈におけるモデルの可能性を強調しています。
すべてのデータセットとコードが利用可能になります。

要約(オリジナル)

In the realm of social media, users frequently convey personal sentiments, with some potentially indicating cognitive distortions or suicidal tendencies. Timely recognition of such signs is pivotal for effective interventions. In response, we introduce two novel annotated datasets from Chinese social media, focused on cognitive distortions and suicidal risk classification. We propose a comprehensive benchmark using both supervised learning and large language models, especially from the GPT series, to evaluate performance on these datasets. To assess the capabilities of the large language models, we employed three strategies: zero-shot, few-shot, and fine-tuning. Furthermore, we deeply explored and analyzed the performance of these large language models from a psychological perspective, shedding light on their strengths and limitations in identifying and understanding complex human emotions. Our evaluations underscore a performance difference between the two approaches, with the models often challenged by subtle category distinctions. While GPT-4 consistently delivered strong results, GPT-3.5 showed marked improvement in suicide risk classification after fine-tuning. This research is groundbreaking in its evaluation of large language models for Chinese social media tasks, accentuating the models’ potential in psychological contexts. All datasets and code are made available.

arxiv情報

著者 Hongzhi Qi,Qing Zhao,Changwei Song,Wei Zhai,Dan Luo,Shuo Liu,Yi Jing Yu,Fan Wang,Huijing Zou,Bing Xiang Yang,Jianqiang Li,Guanghui Fu
発行日 2023-11-01 10:15:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク