Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain

要約

我々は、大規模言語モデル(Large Language Models:LLM)が、医療上の意思決定タスクにおいて医師を支援し、潜在的に修正する可能性を探る。Meditron、Llama2、Mistralを含むいくつかのLLMを評価し、これらのモデルが様々なシナリオにおいて医師と効果的に対話する能力を分析する。PubMedQAからの質問と、二値(はい/いいえ)回答から、医師との対話後にモデルの回答を生成する長文回答生成まで、いくつかのタスクを検討した。その結果、プロンプトのデザインはLLMの精度に大きく影響し、LLMは医師に貴重なフィードバックを提供することで、誤った診断に挑戦し、より正確な意思決定に貢献できることが示唆された。例えば、医師が38%の確率で正確な診断を下している場合、Mistralは正しい答えを出すことができ、使用されるプロンプトによっては74%まで精度を向上させることができる一方、Llama2とMeditronモデルはプロンプトの選択に対してより高い感度を示す。我々の分析はまた、LLMが生成したプロンプトが適切で有用であることを保証するための課題を明らかにし、この分野での更なる研究の必要性を強調している。

要約(オリジナル)

We explore the potential of Large Language Models (LLMs) to assist and potentially correct physicians in medical decision-making tasks. We evaluate several LLMs, including Meditron, Llama2, and Mistral, to analyze the ability of these models to interact effectively with physicians across different scenarios. We consider questions from PubMedQA and several tasks, ranging from binary (yes/no) responses to long answer generation, where the answer of the model is produced after an interaction with a physician. Our findings suggest that prompt design significantly influences the downstream accuracy of LLMs and that LLMs can provide valuable feedback to physicians, challenging incorrect diagnoses and contributing to more accurate decision-making. For example, when the physician is accurate 38% of the time, Mistral can produce the correct answer, improving accuracy up to 74% depending on the prompt being used, while Llama2 and Meditron models exhibit greater sensitivity to prompt choice. Our analysis also uncovers the challenges of ensuring that LLM-generated suggestions are pertinent and useful, emphasizing the need for further research in this area.

arxiv情報

著者 Burcu Sayin,Pasquale Minervini,Jacopo Staiano,Andrea Passerini
発行日 2024-05-06 14:13:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク