Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations

要約

メンタルヘルスケアへのアクセスが制限され、待ち時間の延長、大規模な言語モデル(LLMS)の能力の向上により、個人はメンタルヘルスのニーズを満たすためにLLMSに目を向けるようになりました。
ただし、LLMSのマルチターンメンタルヘルスの会話機能を調べることは、依然として推奨されていません。
既存の評価フレームワークは通常、診断の正確さと勝利に焦点を当てており、多くの場合、意味のある会話に必要な患者固有の目標、価値、性格との調整を見落とします。
これに対処するために、現実的でマルチターンメンタルヘルスセンスメイキングの会話を合成するための新しいフレームワークであるMedagentを紹介し、それを使用して、2,200を超える患者-LLM会話を含むメンタルヘルスセンスメイキングダイアログ(MHSD)データセットを作成します。
さらに、人間中心の基準を使用して、ヘルスケア設定におけるLLMSのマルチターン会話能力を評価するための全体的な枠組みである多senseevalを提示します。
私たちの調査結果は、フロンティアの推論モデルが患者中心のコミュニケーションのPAR以下のパフォーマンスをもたらし、平均スコアが31%の高度な診断能力での闘争をもたらすことを明らかにしています。
さらに、患者のペルソナとパフォーマンスの低下に基づいたモデルパフォーマンスの変動が、会話のターンの増加に伴い観察されました。
私たちの仕事は、包括的な合成データ生成フレームワーク、マルチターンメンタルヘルス会話におけるLLMを評価するためのデータセットおよび評価フレームワークを提供します。

要約(オリジナル)

Limited access to mental healthcare, extended wait times, and increasing capabilities of Large Language Models (LLMs) has led individuals to turn to LLMs for fulfilling their mental health needs. However, examining the multi-turn mental health conversation capabilities of LLMs remains under-explored. Existing evaluation frameworks typically focus on diagnostic accuracy and win-rates and often overlook alignment with patient-specific goals, values, and personalities required for meaningful conversations. To address this, we introduce MedAgent, a novel framework for synthetically generating realistic, multi-turn mental health sensemaking conversations and use it to create the Mental Health Sensemaking Dialogue (MHSD) dataset, comprising over 2,200 patient-LLM conversations. Additionally, we present MultiSenseEval, a holistic framework to evaluate the multi-turn conversation abilities of LLMs in healthcare settings using human-centric criteria. Our findings reveal that frontier reasoning models yield below-par performance for patient-centric communication and struggle at advanced diagnostic capabilities with average score of 31%. Additionally, we observed variation in model performance based on patient’s persona and performance drop with increasing turns in the conversation. Our work provides a comprehensive synthetic data generation framework, a dataset and evaluation framework for assessing LLMs in multi-turn mental health conversations.

arxiv情報

著者 Mohit Chandra,Siddharth Sriraman,Harneet Singh Khanuja,Yiqiao Jin,Munmun De Choudhury
発行日 2025-05-28 15:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク