Comparing the Efficacy of GPT-4 and Chat-GPT in Mental Health Care: A Blind Assessment of Large Language Models for Psychological Support

要約

背景: 自然言語処理の急速な進歩により、精神医療に革命をもたらす可能性のある大規模な言語モデルが開発されました。
これらのモデルは、臨床医を支援し、さまざまな心理的問題を経験している個人にサポートを提供するのに有望であることが示されています。
目的: この研究は、18 個の心理的プロンプトに応答する際の 2 つの大規模な言語モデル、GPT-4 と Chat-GPT のパフォーマンスを比較し、精神医療現場での潜在的な適用可能性を評価することを目的としています。
方法: 臨床心理学者がモデルの反応の起源を知らずに評価するという盲目的な方法論が採用されました。
プロンプトには、包括的な評価を確実にするために、うつ病、不安、トラウマなど、メンタルヘルスに関するさまざまなトピックが含まれていました。
結果: 結果は、2 つのモデル間のパフォーマンスに有意な差があることを示しました (p > 0.05)。
GPT-4 は 10 点中 8.29 の平均評価を獲得し、Chat-GPT は 6.52 の平均評価を獲得しました。
臨床心理学者の評価は、GPT-4 が臨床的に適切で共感的な反応を生成する点でより効果的であり、それによって潜在的なユーザーにより良いサポートとガイダンスを提供できることを示唆しました。
結論: この研究は、精神保健医療現場における大規模な言語モデルの適用可能性に関する文献の増加に貢献します。
この結果は、臨床使用に向けてこれらのモデルを最適化するために、この分野での継続的な研究開発の重要性を強調しています。
2 つのモデル間のパフォーマンスの違いの根底にある特定の要因を理解し、さまざまな集団や精神的健康状態におけるそれらの一般化可能性を調査するには、さらなる調査が必要です。

要約(オリジナル)

Background: Rapid advancements in natural language processing have led to the development of large language models with the potential to revolutionize mental health care. These models have shown promise in assisting clinicians and providing support to individuals experiencing various psychological challenges. Objective: This study aims to compare the performance of two large language models, GPT-4 and Chat-GPT, in responding to a set of 18 psychological prompts, to assess their potential applicability in mental health care settings. Methods: A blind methodology was employed, with a clinical psychologist evaluating the models’ responses without knowledge of their origins. The prompts encompassed a diverse range of mental health topics, including depression, anxiety, and trauma, to ensure a comprehensive assessment. Results: The results demonstrated a significant difference in performance between the two models (p > 0.05). GPT-4 achieved an average rating of 8.29 out of 10, while Chat-GPT received an average rating of 6.52. The clinical psychologist’s evaluation suggested that GPT-4 was more effective at generating clinically relevant and empathetic responses, thereby providing better support and guidance to potential users. Conclusions: This study contributes to the growing body of literature on the applicability of large language models in mental health care settings. The findings underscore the importance of continued research and development in the field to optimize these models for clinical use. Further investigation is necessary to understand the specific factors underlying the performance differences between the two models and to explore their generalizability across various populations and mental health conditions.

arxiv情報

著者 Birger Moell
発行日 2024-05-15 12:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク