Evaluation of ChatGPT for NLP-based Mental Health Applications

要約

大規模言語モデル (LLM) は、いくつかの自然言語理解タスクで成功しており、自然言語処理 (NLP) ベースのメンタルヘルス アプリケーション研究に関連する可能性があります。
この作業では、ストレス検出 (2 クラス分類)、うつ病検出 (2 クラス分類)、
および自殺傾向の検出 (5 クラス分類)。
公開データセットから 3 つの分類タスクに関する注釈付きのソーシャル メディア投稿を取得しました。
次に、ChatGPT API がソーシャル メディアの投稿を分類し、分類のための入力プロンプトを表示しました。
ストレスの検出、うつ病の検出、および自殺傾向の検出について、それぞれ 0.73、0.86、および 0.37 の F1 スコアが得られました。
優勢なクラスを常に予測するベースライン モデルでは、F1 スコアは 0.35、0.60、および 0.19 になりました。
ChatGPT で得られたゼロショット分類精度は、メンタルヘルス分類タスクに言語モデルを使用できる可能性を示しています。

要約(オリジナル)

Large language models (LLM) have been successful in several natural language understanding tasks and could be relevant for natural language processing (NLP)-based mental health application research. In this work, we report the performance of LLM-based ChatGPT (with gpt-3.5-turbo backend) in three text-based mental health classification tasks: stress detection (2-class classification), depression detection (2-class classification), and suicidality detection (5-class classification). We obtained annotated social media posts for the three classification tasks from public datasets. Then ChatGPT API classified the social media posts with an input prompt for classification. We obtained F1 scores of 0.73, 0.86, and 0.37 for stress detection, depression detection, and suicidality detection, respectively. A baseline model that always predicted the dominant class resulted in F1 scores of 0.35, 0.60, and 0.19. The zero-shot classification accuracy obtained with ChatGPT indicates a potential use of language models for mental health classification tasks.

arxiv情報

著者 Bishal Lamichhane
発行日 2023-03-28 04:47:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク