要約
大規模言語モデル (LLM) は、ニューヨーク大学ランゴン大学、ダナ ファーバー大学、NHS などの病院システムでの臨床使用のためにすでに試験的に導入されています。
提案されている導入ユースケースは心理療法で、LLM を利用したチャットボットが精神的健康危機に陥っている患者を治療できます。
メンタルヘルス対応のために LLM を導入すると、仮説的には心理療法へのアクセスが広がり、個別化されたケアの新たな可能性がもたらされる可能性があります。
しかし、Tessa チャットボットが摂食障害の患者に提供した有害なダイエットアドバイスなど、最近の注目を集めた失敗により、一か八かの安全性が重要な状況におけるチャットボットの信頼性が疑問視されるようになりました。
この研究では、LLM 応答がメンタルヘルス治療の自動化に向けた実行可能かつ倫理的な方法であるかどうかを判断するための評価フレームワークを開発します。
訓練を受けた臨床医による人間による評価と、心理学研究に基づいた自動ケアの質の指標を使用して、ピアツーピア対応者によって提供される応答を、最先端の LLM によって提供される応答と比較します。
GPT-4 のような LLM は、暗黙的および明示的な手がかりを使用して、人種などの患者の人口統計を推測することを示します。
次に、患者のサブグループ間に統計的に有意な差異があることを示します。黒人のポスターへの反応は、他の人口統計グループよりも一貫して共感力が低くなります (対照グループより 2% ~ 13% 低い)。
期待できることに、応答が生成される方法が応答の品質に大きな影響を与えることがわかりました。
最後に、メンタルヘルス対応のための LLM の展開の可能性に関する安全ガイドラインを提案します。
要約(オリジナル)
Large language models (LLMs) are already being piloted for clinical use in hospital systems like NYU Langone, Dana-Farber and the NHS. A proposed deployment use case is psychotherapy, where a LLM-powered chatbot can treat a patient undergoing a mental health crisis. Deployment of LLMs for mental health response could hypothetically broaden access to psychotherapy and provide new possibilities for personalizing care. However, recent high-profile failures, like damaging dieting advice offered by the Tessa chatbot to patients with eating disorders, have led to doubt about their reliability in high-stakes and safety-critical settings. In this work, we develop an evaluation framework for determining whether LLM response is a viable and ethical path forward for the automation of mental health treatment. Using human evaluation with trained clinicians and automatic quality-of-care metrics grounded in psychology research, we compare the responses provided by peer-to-peer responders to those provided by a state-of-the-art LLM. We show that LLMs like GPT-4 use implicit and explicit cues to infer patient demographics like race. We then show that there are statistically significant discrepancies between patient subgroups: Responses to Black posters consistently have lower empathy than for any other demographic group (2%-13% lower than the control group). Promisingly, we do find that the manner in which responses are generated significantly impacts the quality of the response. We conclude by proposing safety guidelines for the potential deployment of LLMs for mental health response.
arxiv情報
著者 | Saadia Gabriel,Isha Puri,Xuhai Xu,Matteo Malgaroli,Marzyeh Ghassemi |
発行日 | 2024-05-20 13:42:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google