要約
大規模言語モデル(LLM)は、患者数の多さと医療従事者の不足によって引き起こされる医療システムの負担を軽減することができる診断評価を支援する可能性があるため、医療従事者の注目をますます集めている。LLMが診断評価を効果的に支援するためには、臨床医が使用する標準的な診断手順を忠実に再現することが不可欠である。本論文では、大うつ病性障害(MDD)に対する患者健康調査票9(PHQ-9)と全般性不安障害(GAD)に対する全般性不安障害-7(GAD-7)質問票に記述されている診断評価プロセスを特に検討する。我々は、プロプライエタリなLLMとオープンソースのLLMの両方がこれらのプロセスを遵守するように導くための様々なプロンプトと微調整の技術を調査し、LLMが生成した診断結果と専門家が検証したグランドトゥルースとの間の一致を評価した。ファインチューニングにはMentalllamaとLlamaモデルを使用し、プロンプトにはGPT-3.5やGPT-4oのようなプロプライエタリモデルとllama-3.1-8bやmixtral-8x7bのようなオープンソースモデルを使用した。
要約(オリジナル)
Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
arxiv情報
著者 | Kaushik Roy,Harshul Surana,Darssan Eswaramoorthi,Yuxin Zi,Vedant Palit,Ritvik Garimella,Amit Sheth |
発行日 | 2025-01-02 15:34:02+00:00 |
arxivサイト | arxiv_id(pdf) |