Evaluating the Efficacy of Supervised Learning vs Large Language Models for Identifying Cognitive Distortions and Suicidal Risks in Chinese Social Media

要約

大規模な言語モデル、特に急速に進歩している GPT シリーズに類似したモデルは、その広範な影響力で注目を集めています。
心理学などの医療分野での応用可能性については強い関心が寄せられていますが、実世界のデータに関する具体的な調査は依然として不足しています。
同時に、ソーシャルメディアプラットフォーム上のユーザーは個人的な感情を発言することが増えています。
特定のテーマの下では、これらの感情はしばしば否定的な感情として現れ、場合によっては自殺傾向にまでエスカレートします。
このような認知の歪みや自殺のリスクをタイムリーに識別することは、効果的に介入し、悲惨な状況を回避する可能性があるために非常に重要です。
私たちの研究は、中国のソーシャルメディアプラットフォームでの自殺リスクと認知の歪みの特定という2つの極めて重要なタスクを実験することで、この領域に踏み込みました。
私たちは教師あり学習をベースラインとして使用し、ゼロショット、少数ショット、微調整という 3 つの異なる戦略を通じて大規模言語モデルの有効性を調査し、対比しました。
私たちの調査結果では、大規模な言語モデルと従来の教師あり学習アプローチの間に明らかなパフォーマンスのギャップがあり、これは主にモデルが微妙なカテゴリを完全に把握できないことに起因することが明らかになりました。
特に、GPT-4 は複数のシナリオで同等のパフォーマンスを上回っていますが、GPT-3.5 は微調整後の自殺リスク分類において大幅な強化を示しています。
私たちの知る限り、この調査は中国のソーシャルメディアタスクに関する大規模な言語モデルを測定する初めての試みです。
この研究は、心理学の分野で大規模な言語モデルを使用することの将来を見据えた変革的な意味を強調しています。
これは、心理学の研究と実践における将来の応用のための基礎を築きます。

要約(オリジナル)

Large language models, particularly those akin to the rapidly progressing GPT series, are gaining traction for their expansive influence. While there is keen interest in their applicability within medical domains such as psychology, tangible explorations on real-world data remain scant. Concurrently, users on social media platforms are increasingly vocalizing personal sentiments; under specific thematic umbrellas, these sentiments often manifest as negative emotions, sometimes escalating to suicidal inclinations. Timely discernment of such cognitive distortions and suicidal risks is crucial to effectively intervene and potentially avert dire circumstances. Our study ventured into this realm by experimenting on two pivotal tasks: suicidal risk and cognitive distortion identification on Chinese social media platforms. Using supervised learning as a baseline, we examined and contrasted the efficacy of large language models via three distinct strategies: zero-shot, few-shot, and fine-tuning. Our findings revealed a discernible performance gap between the large language models and traditional supervised learning approaches, primarily attributed to the models’ inability to fully grasp subtle categories. Notably, while GPT-4 outperforms its counterparts in multiple scenarios, GPT-3.5 shows significant enhancement in suicide risk classification after fine-tuning. To our knowledge, this investigation stands as the maiden attempt at gauging large language models on Chinese social media tasks. This study underscores the forward-looking and transformative implications of using large language models in the field of psychology. It lays the groundwork for future applications in psychological research and practice.

arxiv情報

著者 Hongzhi Qi,Qing Zhao,Changwei Song,Wei Zhai,Dan Luo,Shuo Liu,Yi Jing Yu,Fan Wang,Huijing Zou,Bing Xiang Yang,Jianqiang Li,Guanghui Fu
発行日 2023-09-07 08:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク