要約
大規模な言語モデル(LLM)は、臨床知識をエンコードすることが示されています。
しかし、多くの評価は、構造化された質問アンダーベンチマークに依存しており、実際の環境で構造化されていない臨床物語について解釈と推論の重要な課題を見落としています。
フリーテキストの臨床記述を使用して、6つの最先端モデル(GPT-3.5、GPT-4、MIXTRAL-8X7B、QWEN-72B、LLAMA2、LLAMA3)をベンチマークする評価フレームワークであるSemiollmを提示します。
1,269の発作記述のデータベースを活用して、ほとんどのLLMが脳内の発作開始ゾーンの確率的予測を正確かつ自信を持って生成できることを示しています。
ほとんどのモデルは、迅速なエンジニアリング後に臨床医レベルのパフォーマンスに近づき、最も一貫した改善につながる専門家が誘導したチェーンオブサブの推論があります。
パフォーマンスは、臨床内の概説、物語の長さ、言語のコンテキスト(それぞれ13.7%、32.7%および14.2%のパフォーマンスの変動)によってさらに強く変調されました。
しかし、推論出力の専門家分析により、正しい予測は幻覚の知識と不足したソース引用の精度に基づいていることが明らかになり、臨床使用におけるLLMの解釈可能性を改善する必要性を強調しました。
全体として、Semiollmは、構造化されていない言葉による説明が診断情報をエンコードする臨床分野でLLMを評価するためのスケーラブルなドメイン適応可能なフレームワークを提供します。
最先端のモデルの強みと制限の両方を特定することにより、当社の仕事は、臨床的に堅牢でグローバルに適用可能なヘルスケアのためのAIシステムの開発をサポートしています。
要約(オリジナル)
Large Language Models (LLMs) have been shown to encode clinical knowledge. Many evaluations, however, rely on structured question-answer benchmarks, overlooking critical challenges of interpreting and reasoning about unstructured clinical narratives in real-world settings. Using free-text clinical descriptions, we present SemioLLM, an evaluation framework that benchmarks 6 state-of-the-art models (GPT-3.5, GPT-4, Mixtral-8x7B, Qwen-72B, LlaMa2, LlaMa3) on a core diagnostic task in epilepsy. Leveraging a database of 1,269 seizure descriptions, we show that most LLMs are able to accurately and confidently generate probabilistic predictions of seizure onset zones in the brain. Most models approach clinician-level performance after prompt engineering, with expert-guided chain-of-thought reasoning leading to the most consistent improvements. Performance was further strongly modulated by clinical in-context impersonation, narrative length and language context (13.7%, 32.7% and 14.2% performance variation, respectively). However, expert analysis of reasoning outputs revealed that correct prediction can be based on hallucinated knowledge and deficient source citation accuracy, underscoring the need to improve interpretability of LLMs in clinical use. Overall, SemioLLM provides a scalable, domain-adaptable framework for evaluating LLMs in clinical disciplines where unstructured verbal descriptions encode diagnostic information. By identifying both the strengths and limitations of state-of-the-art models, our work supports the development of clinically robust and globally applicable AI systems for healthcare.
arxiv情報
著者 | Meghal Dani,Muthu Jeyanthi Prakash,Zeynep Akata,Stefanie Liebe |
発行日 | 2025-04-23 14:25:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google