要約
自動メンタルヘルス分析は、事前トレーニング済み言語モデル (PLM) と組み込まれた感情情報を使用する最近の手法により、メンタルヘルスケアの効率とアクセシビリティを向上させる大きな可能性を示しています。
ChatGPT などの最新の大規模言語モデル (LLM) は、さまざまな自然言語処理タスクに対して劇的な機能を発揮します。
しかし、メンタルヘルス分析のための ChatGPT に関する既存の研究には、不適切な評価、感情情報の無知、説明可能性の欠如といった限界があります。
これらのギャップを埋めるために、5 つのタスクにわたる 11 のデータセットに対する ChatGPT のメンタルヘルス分析と感情的推論能力を包括的に評価し、さまざまな感情ベースのプロンプト戦略の効果を分析しました。
これらのプロンプトに基づいて、各決定の説明も生成するように指示することで、解釈可能なメンタルヘルス分析のための LLM をさらに探索します。
ドメインの専門家によって設計されたアノテーション プロトコルを使用して、ChatGPT および GPT-3 によって生成された説明の品質を評価するために人間による評価を伝えます。
注釈付きコーパスは将来の研究のために公開される予定です。
実験結果は、ChatGPT が従来のニューラル ネットワーク ベースの手法よりも優れているものの、高度なタスク固有の手法とは依然として大きな差があることを示しています。
感情的な手がかりを使った迅速なエンジニアリングは、メンタルヘルス分析のパフォーマンスを向上させるのに効果的ですが、堅牢性の欠如と推論が不正確になるという問題があります。
さらに、ChatGPT は、人間による説明と人間のパフォーマンスへのアプローチの評価において、すべての基準で GPT-3 を大幅に上回っており、説明可能なメンタルヘルス分析における大きな可能性を示しています。
要約(オリジナル)
Automated mental health analysis shows great potential for enhancing the efficiency and accessibility of mental health care, with recent methods using pre-trained language models (PLMs) and incorporated emotional information. The latest large language models (LLMs), such as ChatGPT, exhibit dramatic capabilities on diverse natural language processing tasks. However, existing studies on ChatGPT for mental health analysis bear limitations in inadequate evaluations, ignorance of emotional information, and lack of explainability. To bridge these gaps, we comprehensively evaluate the mental health analysis and emotional reasoning ability of ChatGPT on 11 datasets across 5 tasks, and analyze the effects of various emotion-based prompting strategies. Based on these prompts, we further explore LLMs for interpretable mental health analysis by instructing them to also generate explanations for each of their decisions. With an annotation protocol designed by domain experts, we convey human evaluations to assess the quality of explanations generated by ChatGPT and GPT-3. The annotated corpus will be released for future research. Experimental results show that ChatGPT outperforms traditional neural network-based methods but still has a significant gap with advanced task-specific methods. Prompt engineering with emotional cues can be effective in improving performance on mental health analysis but suffers from a lack of robustness and inaccurate reasoning. In addition, ChatGPT significantly outperforms GPT-3 on all criteria in human evaluations of the explanations and approaches to human performance, showing its great potential in explainable mental health analysis.
arxiv情報
著者 | Kailai Yang,Shaoxiong Ji,Tianlin Zhang,Qianqian Xie,Ziyan Kuang,Sophia Ananiadou |
発行日 | 2023-05-16 08:32:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google