PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for Mental Health

要約

最近、メンタルヘルス研究における大規模言語モデル (LLM) の利用への関心が高まっており、病気の検出など、その驚くべき機能が研究によって示されています。
ただし、現時点では、このドメインにおける LLM の機能を評価するための包括的なベンチマークが不足しています。
したがって、私たちは、メンタルヘルス領域の固有の特性に合わせた最初の包括的なベンチマークを導入することで、このギャップに対処します。
このベンチマークには、メンタルヘルスの領域における LLM の能力を系統的に評価するために、3 つの側面をカバーする合計 6 つのサブタスクが含まれています。
各サブタスクに対応する簡潔なプロンプトを設計しました。
そして、ベンチマークを使用して合計 8 つの高度な LLM を総合的に評価します。
実験結果は、メンタルヘルスに関して現在の LLM に大きな改善の余地があることを実証するだけでなく、将来のモデル最適化の潜在的な方向性も明らかにします。

要約(オリジナル)

Recently, there has been a growing interest in utilizing large language models (LLMs) in mental health research, with studies showcasing their remarkable capabilities, such as disease detection. However, there is currently a lack of a comprehensive benchmark for evaluating the capability of LLMs in this domain. Therefore, we address this gap by introducing the first comprehensive benchmark tailored to the unique characteristics of the mental health domain. This benchmark encompasses a total of six sub-tasks, covering three dimensions, to systematically assess the capabilities of LLMs in the realm of mental health. We have designed corresponding concise prompts for each sub-task. And we comprehensively evaluate a total of eight advanced LLMs using our benchmark. Experiment results not only demonstrate significant room for improvement in current LLMs concerning mental health but also unveil potential directions for future model optimization.

arxiv情報

著者 Haoan Jin,Siyuan Chen,Mengyue Wu,Kenny Q. Zhu
発行日 2023-11-15 18:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク