A Computational Framework for Behavioral Assessment of LLM Therapists

要約

ChatGPT やその他の大規模言語モデル (LLM) の出現により、メンタルヘルスの問題に苦しむ個人をサポートするセラピストとして LLM を活用することへの関心が大幅に高まっています。
しかし、体系的な研究が不足しているため、LLMセラピストがどのように行動するか、つまり彼らがクライアントにどのように対応するかについての理解は大幅に限られています。
望ましくない行動が深刻な結果を招く可能性があるメンタルヘルスの高リスク環境において、クライアントの能力と限界を正確に評価するには、幅広いクライアントや状況における彼らの行動を理解することが重要です。
この論文では、セラピストとして雇用されている LLM の会話行動を研究するための新しい計算フレームワークである BOLT を提案します。
私たちは、内省、質問、解決策、正規化、心理教育を含む 13 の異なる心理療法テクニックに基づいて、LLM の行動を定量的に測定するコンテキスト内学習方法を開発します。
続いて、LLMセラピストの行動を高品質および低品質の人間によるセラピーの行動と比較し、高品質のセラピーで観察された行動をよりよく反映するために彼らの行動をどのように調整できるかを研究します。
GPT と Llama の亜種を分析した結果、これらの LLM は、クライアントが感情を共有するときに高度な問題解決のアドバイスを提供するなど、質の高い療法ではなく、質の低い療法で一般的に示される行動によく似ていることが明らかになりました。これは典型的な行動とは異なります。
推奨事項。
同時に、低品質の治療とは異なり、LLM はクライアントのニーズと強みをより多く反映します。
私たちの分析フレームワークは、LLM には人間のセラピストに似た事例を生成する能力があるにもかかわらず、LLM セラピストは現在、質の高いケアと完全に一致していないため、質の高いケアを確保するために追加の研究が必要であることを示唆しています。

要約(オリジナル)

The emergence of ChatGPT and other large language models (LLMs) has greatly increased interest in utilizing LLMs as therapists to support individuals struggling with mental health challenges. However, due to the lack of systematic studies, our understanding of how LLM therapists behave, i.e., ways in which they respond to clients, is significantly limited. Understanding their behavior across a wide range of clients and situations is crucial to accurately assess their capabilities and limitations in the high-risk setting of mental health, where undesirable behaviors can lead to severe consequences. In this paper, we propose BOLT, a novel computational framework to study the conversational behavior of LLMs when employed as therapists. We develop an in-context learning method to quantitatively measure the behavior of LLMs based on 13 different psychotherapy techniques including reflections, questions, solutions, normalizing, and psychoeducation. Subsequently, we compare the behavior of LLM therapists against that of high- and low-quality human therapy, and study how their behavior can be modulated to better reflect behaviors observed in high-quality therapy. Our analysis of GPT and Llama-variants reveals that these LLMs often resemble behaviors more commonly exhibited in low-quality therapy rather than high-quality therapy, such as offering a higher degree of problem-solving advice when clients share emotions, which is against typical recommendations. At the same time, unlike low-quality therapy, LLMs reflect significantly more upon clients’ needs and strengths. Our analysis framework suggests that despite the ability of LLMs to generate anecdotal examples that appear similar to human therapists, LLM therapists are currently not fully consistent with high-quality care, and thus require additional research to ensure quality care.

arxiv情報

著者 Yu Ying Chiu,Ashish Sharma,Inna Wanyin Lin,Tim Althoff
発行日 2024-01-01 17:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク