On the Evaluations of ChatGPT and Emotion-enhanced Prompting for Mental Health Analysis




– 自動的な精神保健分析には、プレトレーニングされた言語モデル(PLM)をバックボーンとして感情情報を取り入れた支配的な方法が使用されている。
– ChatGPTなどの最新の大規模言語モデル(LLM)は、多様な自然言語処理タスクにおいて驚異的な能力を示している。
– ただし、ChatGPTのゼロショットパフォーマンスに関する既存の研究には、不十分な評価、感情情報の活用、および方法の説明可能性に関する制限がある。
– この研究では、2つのテーマについてChatGPTの精神保健分析と感情推論能力を包括的に評価する:11のデータセットと5つのタスク、バイナリおよび多クラスの精神保健状態の検出、精神保健状態の原因/因子の検出、会話中の感情認識、および因果関係のある感情。
– 経験的に分析し、ChatGPTの精神保健分析能力と説明可能性に対して、感情の手がかりを使用するさまざまな促し戦略の影響を分析する。実験結果は、ChatGPTが従来のニューラルネットワーク手法を上回っていることを示しているが、先進的なタスク特定手法と比較するとまだ大きな差がある。
– ChatGPTの潜在的な説明可能性は、先進的なブラックボックス手法と比較して優れているが、頑健性と不正確な推論に対する制限もある。
– 感情的な手がかりを使用したプロンプティングエンジニアリングは、精神保健分析でのパフォーマンスを向上させるために効果的であることが分かったが、感情の注入方法が適切である必要がある。


Automated mental health analysis shows great potential for enhancing the efficiency and accessibility of mental health care, whereas the recent dominant methods utilized pre-trained language models (PLMs) as the backbone and incorporated emotional information. The latest large language models (LLMs), such as ChatGPT, exhibit dramatic capabilities on diverse natural language processing tasks. However, existing studies on ChatGPT’s zero-shot performance for mental health analysis have limitations in inadequate evaluation, utilization of emotional information, and explainability of methods. In this work, we comprehensively evaluate the mental health analysis and emotional reasoning ability of ChatGPT on 11 datasets across 5 tasks, including binary and multi-class mental health condition detection, cause/factor detection of mental health conditions, emotion recognition in conversations, and causal emotion entailment. We empirically analyze the impact of different prompting strategies with emotional cues on ChatGPT’s mental health analysis ability and explainability. Experimental results show that ChatGPT outperforms traditional neural network methods but still has a significant gap with advanced task-specific methods. The qualitative analysis shows its potential in explainability compared with advanced black-box methods but also limitations on robustness and inaccurate reasoning. Prompt engineering with emotional cues is found to be effective in improving its performance on mental health analysis but requires the proper way of emotion infusion.


著者 Kailai Yang,Shaoxiong Ji,Tianlin Zhang,Qianqian Xie,Sophia Ananiadou
発行日 2023-04-06 19:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク