LLM Assistance for Pediatric Depression

要約

PHQ-9などの従来のうつ病スクリーニング方法は、実際の制限により、小児プライマリケアの子供にとって特に困難です。
AIには役立つ可能性がありますが、メンタルヘルスにおける注釈付きデータセットの不足は、トレーニングの計算コストと組み合わされて、効率的でゼロショットアプローチの必要性を強調しています。
この作業では、小児環境での抑うつ症状抽出に対する最先端のLLMの実現可能性を調査します(6〜24歳)。
このアプローチは、従来のスクリーニングを補完し、診断エラーを最小限に抑えることを目的としています。
私たちの調査結果は、すべてのLLMがワードマッチよりも60%効率的であり、Flanが精度(平均F1:0.65、精度:0.78)をリードし、「睡眠障害」(F1:0.92)や「睡眠障害」などのよりまれな症状の抽出に優れていることを示しています。
「自己嫌悪」(F1:0.8)。
Phiは、精度(0.44)とRecall(0.60)のバランスを取り、「落ち込んでいる」(0.69)や「重量変化」(0.78)などのカテゴリでうまく機能します。
Llama 3は、最高のリコール(0.90)で、このタイプの分析には症状を過剰にしているため、症状を過剰にしています。
課題には、臨床ノートの複雑さとPHQ-9スコアからの過剰な一般化が含まれます。
LLMSが直面する主な課題には、患者の軌跡の異なる時間からの内容を含む臨床ノートの複雑な構造をナビゲートすること、およびPHQ-9スコアの上昇を誤って解釈することが含まれます。
最終的に、FLANがMLアルゴリズムの特徴としてFLANが提供する症状注釈の有用性を実証します。これにより、うつ病の症例が0.78の高精度でコントロールを区別し、これらの機能を使用していないベースラインと比較して大きなパフォーマンスブーストを示します。

要約(オリジナル)

Traditional depression screening methods, such as the PHQ-9, are particularly challenging for children in pediatric primary care due to practical limitations. AI has the potential to help, but the scarcity of annotated datasets in mental health, combined with the computational costs of training, highlights the need for efficient, zero-shot approaches. In this work, we investigate the feasibility of state-of-the-art LLMs for depressive symptom extraction in pediatric settings (ages 6-24). This approach aims to complement traditional screening and minimize diagnostic errors. Our findings show that all LLMs are 60% more efficient than word match, with Flan leading in precision (average F1: 0.65, precision: 0.78), excelling in the extraction of more rare symptoms like ‘sleep problems’ (F1: 0.92) and ‘self-loathing’ (F1: 0.8). Phi strikes a balance between precision (0.44) and recall (0.60), performing well in categories like ‘Feeling depressed’ (0.69) and ‘Weight change’ (0.78). Llama 3, with the highest recall (0.90), overgeneralizes symptoms, making it less suitable for this type of analysis. Challenges include the complexity of clinical notes and overgeneralization from PHQ-9 scores. The main challenges faced by LLMs include navigating the complex structure of clinical notes with content from different times in the patient trajectory, as well as misinterpreting elevated PHQ-9 scores. We finally demonstrate the utility of symptom annotations provided by Flan as features in an ML algorithm, which differentiates depression cases from controls with high precision of 0.78, showing a major performance boost compared to a baseline that does not use these features.

arxiv情報

著者 Mariia Ignashina,Paulina Bondaronek,Dan Santel,John Pestian,Julia Ive
発行日 2025-01-29 09:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク