Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain

要約

私たちは、医療上の意思決定業務において医師を支援し、修正する可能性がある大規模言語モデル (LLM) の可能性を探ります。
私たちは、Meditron、Llama2、Mistral などのいくつかの LLM を評価し、さまざまなシナリオで医師と効果的に対話するこれらのモデルの能力を分析します。
私たちは、PubMedQA からの質問と、二者択一 (はい/いいえ) の回答から、モデルの回答が医師とのやり取りの後に生成される長い回答の生成に至るまでのいくつかのタスクを検討します。
私たちの調査結果は、迅速な設計が LLM の下流の精度に大きく影響し、LLM が医師に貴重なフィードバックを提供して、誤った診断に挑戦し、より正確な意思決定に貢献できることを示唆しています。
たとえば、医師が 38% の確率で正確である場合、Mistral は正しい答えを導き出すことができ、使用されるプロンプトに応じて精度が最大 74% 向上します。一方、Llama2 および Meditron モデルはプロンプトの選択に対してより高い感度を示します。
私たちの分析では、LLM によって生成された提案が適切かつ有用であることを保証するという課題も明らかになり、この分野でのさらなる研究の必要性が強調されています。

要約(オリジナル)

We explore the potential of Large Language Models (LLMs) to assist and potentially correct physicians in medical decision-making tasks. We evaluate several LLMs, including Meditron, Llama2, and Mistral, to analyze the ability of these models to interact effectively with physicians across different scenarios. We consider questions from PubMedQA and several tasks, ranging from binary (yes/no) responses to long answer generation, where the answer of the model is produced after an interaction with a physician. Our findings suggest that prompt design significantly influences the downstream accuracy of LLMs and that LLMs can provide valuable feedback to physicians, challenging incorrect diagnoses and contributing to more accurate decision-making. For example, when the physician is accurate 38% of the time, Mistral can produce the correct answer, improving accuracy up to 74% depending on the prompt being used, while Llama2 and Meditron models exhibit greater sensitivity to prompt choice. Our analysis also uncovers the challenges of ensuring that LLM-generated suggestions are pertinent and useful, emphasizing the need for further research in this area.

arxiv情報

著者 Burcu Sayin,Pasquale Minervini,Jacopo Staiano,Andrea Passerini
発行日 2024-03-29 16:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク