要約
LLM は、医師免許試験の合格点など、医療に関する質問への回答において優れたパフォーマンスを示しています。
しかし、医療委員会の試験問題や一般的な臨床問題は、現実的な臨床症例の複雑さを捉えていません。
さらに、参考となる説明が不足しているということは、複雑な医療上の決定を下す際に医師をサポートする上で重要な要素であるモデル決定の推論を簡単に評価できないことを意味します。
これらの課題に対処するために、JAMA Clinical Challenge と Medbullets という 2 つの新しいデータセットを構築しました。
JAMA Clinical Challenge は難しい臨床症例に基づいた質問で構成され、Medbullets は USMLE ステップ 2 および 3 スタイルの臨床質問で構成されます。
どちらのデータセットも多肢選択式の質問に答えるタスクとして構成されており、各質問には専門家が作成した説明が付いています。
さまざまなプロンプトを使用して、2 つのデータセット上の 4 つの LLM を評価します。
実験では、私たちのデータセットが以前のベンチマークよりも難しいことが実証されました。
モデル生成された説明の自動評価と人間による評価との間の矛盾は、説明可能な医療 QA に関する将来の研究をサポートする新しい指標を開発する必要性を浮き彫りにしています。
要約(オリジナル)
LLMs have demonstrated impressive performance in answering medical questions, such as passing scores on medical licensing examinations. However, medical board exam questions or general clinical questions do not capture the complexity of realistic clinical cases. Moreover, the lack of reference explanations means we cannot easily evaluate the reasoning of model decisions, a crucial component of supporting doctors in making complex medical decisions. To address these challenges, we construct two new datasets: JAMA Clinical Challenge and Medbullets. JAMA Clinical Challenge consists of questions based on challenging clinical cases, while Medbullets comprises USMLE Step 2&3 style clinical questions. Both datasets are structured as multiple-choice question-answering tasks, where each question is accompanied by an expert-written explanation. We evaluate four LLMs on the two datasets using various prompts. Experiments demonstrate that our datasets are harder than previous benchmarks. The inconsistency between automatic and human evaluations of model-generated explanations highlights the need to develop new metrics to support future research on explainable medical QA.
arxiv情報
著者 | Hanjie Chen,Zhouxiang Fang,Yash Singla,Mark Dredze |
発行日 | 2024-02-29 16:31:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google