Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data

要約

大規模言語モデル (LLM) の進歩により、さまざまなアプリケーションが強化されました。
しかし、メンタルヘルス分野におけるLLMの能力の理解と強化に関しては、研究には依然として大きなギャップがあります。
この研究では、オンライン テキスト データを介したさまざまなメンタルヘルス予測タスクについて、Alpaca、Alpaca-LoRA、FLAN-T5、GPT-3.5、GPT-4 を含む複数の LLM の最初の包括的な評価を示します。
私たちは、ゼロショットプロンプティング、少数ショットプロンプティング、および命令の微調整をカバーする幅広い実験を実施します。
この結果は、メンタルヘルス タスクに対するゼロショットおよび少数ショットのプロンプト設計を使用した LLM のパフォーマンスは有望だが限定的であることを示しています。
さらに重要なことは、私たちの実験は、命令の微調整により、すべてのタスクの LLM のパフォーマンスを同時に大幅に向上できることを示しています。
当社の最高に微調整されたモデルである Mental-Alpaca および Mental-FLAN-T5 は、バランスの取れた精度で GPT-3.5 の最高のプロンプト設計 (25 倍と 15 倍) を 10.9% 上回り、最高の GPT-4 (250 倍と 150 倍) を上回ります。
大きい)4.8%増加。
さらに、最先端のタスク固有言語モデルと同等のパフォーマンスを発揮します。
また、メンタルヘルス推論タスクにおける LLM の能力に関する探索的なケーススタディも実施し、GPT-4 などの特定のモデルの有望な能力を示しています。
私たちは、メンタルヘルス課題に対するLLMの能力を強化するための潜在的な方法について、私たちの調査結果を一連の行動ガイドラインにまとめます。
その一方で、既知の人種や性別の偏見など、現実世界のメンタルヘルス環境で導入可能性を達成する前に重要な制限があることも強調します。
私たちは、この一連の研究に伴う重要な倫理的リスクを強調します。

要約(オリジナル)

Advances in large language models (LLMs) have empowered a variety of applications. However, there is still a significant gap in research when it comes to understanding and enhancing the capabilities of LLMs in the field of mental health. In this work, we present the first comprehensive evaluation of multiple LLMs, including Alpaca, Alpaca-LoRA, FLAN-T5, GPT-3.5, and GPT-4, on various mental health prediction tasks via online text data. We conduct a broad range of experiments, covering zero-shot prompting, few-shot prompting, and instruction fine-tuning. The results indicate a promising yet limited performance of LLMs with zero-shot and few-shot prompt designs for the mental health tasks. More importantly, our experiments show that instruction finetuning can significantly boost the performance of LLMs for all tasks simultaneously. Our best-finetuned models, Mental-Alpaca and Mental-FLAN-T5, outperform the best prompt design of GPT-3.5 (25 and 15 times bigger) by 10.9% on balanced accuracy and the best of GPT-4 (250 and 150 times bigger) by 4.8%. They further perform on par with the state-of-the-art task-specific language model. We also conduct an exploratory case study on LLMs’ capability on the mental health reasoning tasks, illustrating the promising capability of certain models such as GPT-4. We summarize our findings into a set of action guidelines for potential methods to enhance LLMs’ capability for mental health tasks. Meanwhile, we also emphasize the important limitations before achieving deployability in real-world mental health settings, such as known racial and gender bias. We highlight the important ethical risks accompanying this line of research.

arxiv情報

著者 Xuhai Xu,Bingshen Yao,Yuanzhe Dong,Saadia Gabriel,Hong Yu,James Hendler,Marzyeh Ghassemi,Anind K. Dey,Dakuo Wang
発行日 2023-08-16 06:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U35, cs.CL, cs.HC, H.5.2 パーマリンク