MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering

要約

大規模言語モデル(LLM)は、医学的な質問応答ベンチマークにおいて目覚ましい性能を達成している。しかし、ベンチマークの精度が高いからといって、その性能が実際の臨床現場で一般化されるとは限らない。医療質問応答ベンチマークは、LLMの性能を定量化するのに矛盾しない仮定に依存しているが、それは臨床のオープンな世界では通用しないかもしれない。しかし、LLMは、有名なベンチマークにおける非現実的な仮定に関係なく、LLMが実用的な状況に一般化するのに役立つ幅広い知識を学習する。我々は、LLMの医療質問応答ベンチマークの性能が、ベンチマークの仮定に違反した場合にどの程度一般化するかを定量化することを目指す。具体的には、MedFuzz(医療ファジング)と呼ぶ敵対的手法を提示する。MedFuzzは、LLMを混乱させることを目的として、ベンチマーク問題を修正することを試みる。我々は、MedQAベンチマークに示された患者の特徴に関する強い仮定をターゲットとして、このアプローチを実証する。成功した「攻撃」は、医療専門家を欺く可能性は低いが、それでもLLMを「騙して」正解から不正解に変えるような方法でベンチマーク項目を修正する。さらに、成功した攻撃が統計的に有意であることを確認できる並べ替えテスト技術を紹介する。また、「MedFuzzed」ベンチマークにおける性能と、成功した個々の攻撃の使用方法を示す。この手法は、より現実的な設定においてLLMが頑健に動作する能力についての洞察を提供することが期待される。

要約(オリジナル)

Large language models (LLM) have achieved impressive performance on medical question-answering benchmarks. However, high benchmark accuracy does not imply that the performance generalizes to real-world clinical settings. Medical question-answering benchmarks rely on assumptions consistent with quantifying LLM performance but that may not hold in the open world of the clinic. Yet LLMs learn broad knowledge that can help the LLM generalize to practical conditions regardless of unrealistic assumptions in celebrated benchmarks. We seek to quantify how well LLM medical question-answering benchmark performance generalizes when benchmark assumptions are violated. Specifically, we present an adversarial method that we call MedFuzz (for medical fuzzing). MedFuzz attempts to modify benchmark questions in ways aimed at confounding the LLM. We demonstrate the approach by targeting strong assumptions about patient characteristics presented in the MedQA benchmark. Successful ‘attacks’ modify a benchmark item in ways that would be unlikely to fool a medical expert but nonetheless ‘trick’ the LLM into changing from a correct to an incorrect answer. Further, we present a permutation test technique that can ensure a successful attack is statistically significant. We show how to use performance on a ‘MedFuzzed’ benchmark, as well as individual successful attacks. The methods show promise at providing insights into the ability of an LLM to operate robustly in more realistic settings.

arxiv情報

著者 Robert Osazuwa Ness,Katie Matton,Hayden Helm,Sheng Zhang,Junaid Bajwa,Carey E. Priebe,Eric Horvitz
発行日 2024-09-01 19:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, I.2.7 パーマリンク