Towards Expert-Level Medical Question Answering with Large Language Models

要約

最近の人工知能 (AI) システムは、囲碁からタンパク質のフォールディングに至るまでの「壮大な課題」においてマイルストーンに到達しました。
医師と同等に医学知識を検索し、それを推論し、医学的質問に答える能力は、そのような大きな課題の 1 つであると長い間考えられてきました。
大規模言語モデル (LLM) は、医療質問応答において大きな進歩をもたらしました。
Med-PaLM は、MedQA データセットで 67.2% のスコアを持ち、米国医師免許試験 (USMLE) 形式の問題で「合格」スコアを超えた最初のモデルです。
しかし、この研究や他の以前の研究は、特にモデルの回答を臨床医の回答と比較した場合に、大きな改善の余地があることを示唆していました。
ここでは、ベース LLM の改善 (PaLM 2)、医療領域の微調整、および新しいアンサンブル改良アプローチを含むプロンプト戦略の組み合わせを活用することで、これらのギャップを埋める Med-PaLM 2 を紹介します。
Med-PaLM 2 は、MedQA データセットで最大 86.5% のスコアを獲得し、Med-PaLM を 19% 以上改善し、新たな最先端を確立しました。
また、MedMCQA、PubMedQA、および MMLU の臨床トピック データセット全体で、最先端に近い、または最先端を超えているパフォーマンスも観察されました。
私たちは、臨床応用に関連する複数の軸に沿って、長文の質問に対して人間による詳細な評価を実行しました。
1,066 件の消費者医療質問のペア比較ランキングでは、臨床的有用性に関する 9 つの軸のうち 8 つの軸において、医師は医師が作成した回答よりも Med-PaLM 2 の回答を好みました (p < 0.001)。 また、LLM の限界を調査するために新たに導入された 240 個の長形式の「敵対的」質問のデータセットでは、すべての評価軸 (p < 0.001) で Med-PaLM と比較して大幅な改善が見られました。 現実の環境でこれらのモデルの有効性を検証するにはさらなる研究が必要ですが、これらの結果は、医療質問応答における医師レベルのパフォーマンスが急速に進歩していることを浮き彫りにしています。

要約(オリジナル)

Recent artificial intelligence (AI) systems have reached milestones in ‘grand challenges’ ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a ‘passing’ score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models’ answers were compared to clinicians’ answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form 'adversarial' questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering.

arxiv情報

著者 Karan Singhal,Tao Tu,Juraj Gottweis,Rory Sayres,Ellery Wulczyn,Le Hou,Kevin Clark,Stephen Pfohl,Heather Cole-Lewis,Darlene Neal,Mike Schaekermann,Amy Wang,Mohamed Amin,Sami Lachgar,Philip Mansfield,Sushant Prakash,Bradley Green,Ewa Dominowska,Blaise Aguera y Arcas,Nenad Tomasev,Yun Liu,Renee Wong,Christopher Semturs,S. Sara Mahdavi,Joelle Barral,Dale Webster,Greg S. Corrado,Yossi Matias,Shekoofeh Azizi,Alan Karthikesalingam,Vivek Natarajan
発行日 2023-05-16 17:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク