要約
大規模言語モデル (LLM) の医療分野への統合は、シミュレートされた臨床意思決定設定での精度が期待できるため、大きな注目を集めています。
ただし、医師の決定は認知バイアスの存在を含む多くの要因によって決まるため、臨床上の意思決定はシミュレーションよりも複雑です。
しかし、LLM が人間の臨床医に影響を与えるのと同じ認知バイアスの影響をどの程度受けやすいかはまだ解明されていません。
私たちの仮説では、LLM が認知バイアスを含む臨床質問に直面した場合、そのようなバイアスなしで提示された同じ質問に比べて、回答の精度が大幅に低下すると仮定しています。
この研究では、医療業務に適用される LLM の認知バイアスを評価するための新しいベンチマークである BiasMedQA を開発しました。
BiasMedQA を使用して、6 つの LLM、つまり GPT-4、Mixtral-8x70B、GPT-3.5、PaLM-2、Llama 2 70B-chat、および医療に特化した PMC Llama 13B を評価しました。
これらのモデルを、米国医師免許試験 (USMLE) のステップ 1、2、および 3 の 1,273 問でテストし、一般的な臨床関連の認知バイアスを再現するように修正しました。
私たちの分析により、これらの LLM に対するバイアスのさまざまな影響が明らかになり、認知バイアスの影響を過度に受けた Llama 2 70B チャットや PMC Llama 13B とは対照的に、GPT-4 はバイアスに対する回復力で際立っています。
私たちの調査結果は、医療 LLM の開発におけるバイアス緩和の重要な必要性を強調し、医療におけるより安全で信頼性の高いアプリケーションを示唆しています。
要約(オリジナル)
The integration of large language models (LLMs) into the medical field has gained significant attention due to their promising accuracy in simulated clinical decision-making settings. However, clinical decision-making is more complex than simulations because physicians’ decisions are shaped by many factors, including the presence of cognitive bias. However, the degree to which LLMs are susceptible to the same cognitive biases that affect human clinicians remains unexplored. Our hypothesis posits that when LLMs are confronted with clinical questions containing cognitive biases, they will yield significantly less accurate responses compared to the same questions presented without such biases. In this study, we developed BiasMedQA, a novel benchmark for evaluating cognitive biases in LLMs applied to medical tasks. Using BiasMedQA we evaluated six LLMs, namely GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 2 70B-chat, and the medically specialized PMC Llama 13B. We tested these models on 1,273 questions from the US Medical Licensing Exam (USMLE) Steps 1, 2, and 3, modified to replicate common clinically-relevant cognitive biases. Our analysis revealed varying effects for biases on these LLMs, with GPT-4 standing out for its resilience to bias, in contrast to Llama 2 70B-chat and PMC Llama 13B, which were disproportionately affected by cognitive bias. Our findings highlight the critical need for bias mitigation in the development of medical LLMs, pointing towards safer and more reliable applications in healthcare.
arxiv情報
著者 | Samuel Schmidgall,Carl Harris,Ime Essien,Daniel Olshvang,Tawsifur Rahman,Ji Woong Kim,Rojin Ziaei,Jason Eshraghian,Peter Abadir,Rama Chellappa |
発行日 | 2024-02-14 17:52:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google