MedCalc-Bench: Evaluating Large Language Models for Medical Calculations

要約

計算と論理ベースの推論の評価とは対照的に、医学における大規模言語モデル (LLM) を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てています。
このような定性的な機能は医療診断に不可欠ですが、実際のシナリオでは、医師は証拠に基づいた意思決定をサポートするために、定量的な方程式とルールベースの推論パラダイムに従う臨床計算機を頻繁に使用します。
この目的を達成するために、LLM の医療計算能力の評価に焦点を当てた、この種では初めてのデータセットである MedCalc-Bench を提案します。
MedCalc-Bench には、55 の異なる医療計算タスクから手動でレビューされた 1000 を超えるインスタンスの評価セットが含まれています。
MedCalc-Bench の各インスタンスは、患者のメモ、特定の医療値の計算を要求する質問、正確な回答、および回答がどのように得られるかを示す段階的な説明で構成されます。
私たちの評価結果は、この分野における LLM の可能性を示していますが、臨床現場ではどれも十分に効果的ではありません。
一般的な問題には、間違ったエンティティを抽出すること、計算タスクに正しい方程式やルールを使用しないこと、計算の算術演算を間違って実行することなどが含まれます。
私たちは、この研究が医療現場における LLM の定量的知識と推論のギャップを浮き彫りにし、さまざまな臨床計算タスクに対する LLM の将来の改善を促進することを願っています。

要約(オリジナル)

As opposed to evaluating computation and logic-based reasoning, current benchmarks for evaluating large language models (LLMs) in medicine are primarily focused on question-answering involving domain knowledge and descriptive reasoning. While such qualitative capabilities are vital to medical diagnosis, in real-world scenarios, doctors frequently use clinical calculators that follow quantitative equations and rule-based reasoning paradigms for evidence-based decision support. To this end, we propose MedCalc-Bench, a first-of-its-kind dataset focused on evaluating the medical calculation capability of LLMs. MedCalc-Bench contains an evaluation set of over 1000 manually reviewed instances from 55 different medical calculation tasks. Each instance in MedCalc-Bench consists of a patient note, a question requesting to compute a specific medical value, a ground truth answer, and a step-by-step explanation showing how the answer is obtained. While our evaluation results show the potential of LLMs in this area, none of them are effective enough for clinical settings. Common issues include extracting the incorrect entities, not using the correct equation or rules for a calculation task, or incorrectly performing the arithmetic for the computation. We hope our study highlights the quantitative knowledge and reasoning gaps in LLMs within medical settings, encouraging future improvements of LLMs for various clinical calculation tasks.

arxiv情報

著者 Nikhil Khandekar,Qiao Jin,Guangzhi Xiong,Soren Dunn,Serina S Applebaum,Zain Anwar,Maame Sarfo-Gyamfi,Conrad W Safranek,Abid A Anwar,Andrew Zhang,Aidan Gilson,Maxwell B Singer,Amisha Dave,Andrew Taylor,Aidong Zhang,Qingyu Chen,Zhiyong Lu
発行日 2024-06-27 15:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク