要約
大規模言語モデル (LLM) は、診断上の意思決定をサポートするために研究されていますが、臨床上の意思決定に不可欠な検査前の確率を推定する能力は依然として限られています。
この研究では、3 つの診断タスクに関する構造化された電子医療記録データを使用して、2 つの LLM、Mistral-7B と Llama3-70B を評価します。
私たちは、LLM 確率推定値を抽出する 3 つの現在の方法を検証し、その限界を明らかにしました。
私たちは、LLM 信頼度推定における改良された技術の必要性を強調することを目的としています。
要約(オリジナル)
Large language models (LLMs) are being explored for diagnostic decision support, yet their ability to estimate pre-test probabilities, vital for clinical decision-making, remains limited. This study evaluates two LLMs, Mistral-7B and Llama3-70B, using structured electronic health record data on three diagnosis tasks. We examined three current methods of extracting LLM probability estimations and revealed their limitations. We aim to highlight the need for improved techniques in LLM confidence estimation.
arxiv情報
著者 | Yanjun Gao,Skatje Myers,Shan Chen,Dmitriy Dligach,Timothy A Miller,Danielle Bitterman,Guanhua Chen,Anoop Mayampurath,Matthew Churpek,Majid Afshar |
発行日 | 2024-11-07 18:39:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google