要約
メンタルヘルスの領域における大規模言語モデル(LLM)の評価には、個人間で大きなばらつきがある症状の微妙で非常に主観的な性質を考慮すると、他の領域とは異なる課題がある。本論文では、LLMを評価するための、初の包括的なメンタルヘルス関連タスク群であるPsyEvalを紹介する。PsyEvalは、メンタルヘルスの3つの重要な側面を評価する5つのサブタスクを含んでいる。この包括的なフレームワークは、メンタルヘルス関連のタスクのユニークな課題と複雑さを徹底的に評価するように設計されており、PsyEvalはこの領域におけるLLMのパフォーマンスを評価するための高度に専門的で価値あるツールとなっている。我々は、PsyEvalを用いて12の高度なLLMを評価した。実験結果は、メンタルヘルスに関する現在のLLMに大きな改善の余地があることを示すだけでなく、将来のモデル最適化の潜在的な方向性を明らかにする。
要約(オリジナル)
Evaluating Large Language Models (LLMs) in the mental health domain poses distinct challenged from other domains, given the subtle and highly subjective nature of symptoms that exhibit significant variability among individuals. This paper presents PsyEval, the first comprehensive suite of mental health-related tasks for evaluating LLMs. PsyEval encompasses five sub-tasks that evaluate three critical dimensions of mental health. This comprehensive framework is designed to thoroughly assess the unique challenges and intricacies of mental health-related tasks, making PsyEval a highly specialized and valuable tool for evaluating LLM performance in this domain. We evaluate twelve advanced LLMs using PsyEval. Experiment results not only demonstrate significant room for improvement in current LLMs concerning mental health but also unveil potential directions for future model optimization.
arxiv情報
著者 | Haoan Jin,Siyuan Chen,Dilawaier Dilixiati,Yewei Jiang,Mengyue Wu,Kenny Q. Zhu |
発行日 | 2024-06-03 08:37:10+00:00 |
arxivサイト | arxiv_id(pdf) |