要約
大規模な言語モデル(LLMS)の出現は、医療リソースの不足や精神医学的臨床診療における診断の一貫性の低さなどの問題に対処するための潜在的なソリューションを提供します。
この可能性にもかかわらず、本物の精神医学的臨床環境におけるLLMの有効性を評価するための堅牢で包括的なベンチマークフレームワークはありません。
これにより、精神医学的アプリケーションに合わせた専門のLLMSの進歩が妨げられています。
このギャップに応えて、精神医学および臨床データに臨床的要求を組み込むことにより、精神医学的臨床環境でのLLMSの実際のパフォーマンスを評価するために、ベンチマークシステムであるサイケベンチを提案しました。
Psychbenchを使用して16 LLMの包括的な定量評価を実施し、モデルパフォーマンスに対する迅速な設計、考え方の推論、入力テキストの長さ、ドメイン固有の知識の微調整の影響を調査しました。
詳細なエラー分析を通じて、既存のモデルの強みと潜在的な制限を特定し、改善のための指示を提案しました。
その後、さまざまな年功の精神科医が関与する60人の精神科医が関与する臨床読者の研究が行われ、既存のLLMの実際の利点をさらに年功序列の精神科医のための支持ツールとしてさらに調査しました。
定量的および読者の評価を通じて、既存のモデルは重大な可能性を示しているが、精神医学的臨床診療における意思決定ツールとしてまだ適切ではないことを示しています。
読者の調査では、補助ツールとして、LLMは若手精神科医に特に顕著なサポートを提供し、仕事の効率と全体的な臨床品質を効果的に向上させることができることを示しています。
この分野での研究を促進するために、精神医学的臨床環境でLLMの適用を進めることを期待して、データセットと評価のフレームワークを公開します。
要約(オリジナル)
The advent of Large Language Models (LLMs) offers potential solutions to address problems such as shortage of medical resources and low diagnostic consistency in psychiatric clinical practice. Despite this potential, a robust and comprehensive benchmarking framework to assess the efficacy of LLMs in authentic psychiatric clinical environments is absent. This has impeded the advancement of specialized LLMs tailored to psychiatric applications. In response to this gap, by incorporating clinical demands in psychiatry and clinical data, we proposed a benchmarking system, PsychBench, to evaluate the practical performance of LLMs in psychiatric clinical settings. We conducted a comprehensive quantitative evaluation of 16 LLMs using PsychBench, and investigated the impact of prompt design, chain-of-thought reasoning, input text length, and domain-specific knowledge fine-tuning on model performance. Through detailed error analysis, we identified strengths and potential limitations of the existing models and suggested directions for improvement. Subsequently, a clinical reader study involving 60 psychiatrists of varying seniority was conducted to further explore the practical benefits of existing LLMs as supportive tools for psychiatrists of varying seniority. Through the quantitative and reader evaluation, we show that while existing models demonstrate significant potential, they are not yet adequate as decision-making tools in psychiatric clinical practice. The reader study further indicates that, as an auxiliary tool, LLM could provide particularly notable support for junior psychiatrists, effectively enhancing their work efficiency and overall clinical quality. To promote research in this area, we will make the dataset and evaluation framework publicly available, with the hope of advancing the application of LLMs in psychiatric clinical settings.
arxiv情報
著者 | Shuyu Liu,Ruoxi Wang,Ling Zhang,Xuequan Zhu,Rui Yang,Xinzhu Zhou,Fei Wu,Zhi Yang,Cheng Jin,Gang Wang |
発行日 | 2025-06-18 12:24:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google