Enhanced Large Language Models for Effective Screening of Depression and Anxiety


大規模言語モデル (LLM) の最近の進歩により、潜在的な解決策が提供されていますが、高コストとトレーニング データに関する倫理的懸念が依然として課題となっています。
この論文では、臨床面接を合成するためのパイプラインを紹介し、1,157 の対話型対話 (PsyInterview) を生成し、LLM ベースの感情障害スクリーニング システムである EmoScan を紹介します。
EmoScan は、粗い障害(不安障害やうつ病など)と細かい障害(大うつ病性障害など)を区別し、質の高いインタビューを実施します。
評価の結果、EmoScan は感情障害のスクリーニングにおいて、基本モデルや GPT-4 などの他の LLM のパフォーマンスを上回っていることが示されました (F1 スコア = 0.7467)。
また、優れた説明 (BERTScore=0.9408) を提供し、堅牢な一般化可能性 (外部データセットでの F1 スコア 0.67) も示しています。
さらに、EmoScan は、自動評価と人間による評価によって検証されているように、面接スキルにおいてベースラインを上回っています。
この研究は、効果的なメンタルヘルス LLM ツールを開発するためのスケーラブルなデータ生成パイプラインの重要性を強調しています。


Depressive and anxiety disorders are widespread, necessitating timely identification and management. Recent advances in Large Language Models (LLMs) offer potential solutions, yet high costs and ethical concerns about training data remain challenges. This paper introduces a pipeline for synthesizing clinical interviews, resulting in 1,157 interactive dialogues (PsyInterview), and presents EmoScan, an LLM-based emotional disorder screening system. EmoScan distinguishes between coarse (e.g., anxiety or depressive disorders) and fine disorders (e.g., major depressive disorders) and conducts high-quality interviews. Evaluations showed that EmoScan exceeded the performance of base models and other LLMs like GPT-4 in screening emotional disorders (F1-score=0.7467). It also delivers superior explanations (BERTScore=0.9408) and demonstrates robust generalizability (F1-score of 0.67 on an external dataset). Furthermore, EmoScan outperforms baselines in interviewing skills, as validated by automated ratings and human evaluations. This work highlights the importance of scalable data-generative pipelines for developing effective mental health LLM tools.


著者 June M. Liu,Mengxia Gao,Sahand Sabour,Zhuang Chen,Minlie Huang,Tatia M. C. Lee
発行日 2025-01-15 12:42:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク