AgentMD: Empowering Language Agents for Risk Prediction with Large-Scale Clinical Tool Learning

要約

臨床電卓は、予後などのさまざまな目的に対して、証拠に基づいた正確な予測を提供することで、医療において重要な役割を果たしています。
それにもかかわらず、その広範な利用は、ユーザビリティの問題、不十分な普及、制限された機能によってしばしば妨げられています。
臨床電卓の広範なコレクションを使用して大規模な言語モデルを強化すると、これらの障害を克服してワークフローの効率を向上させる機会が得られますが、手動キュレーション プロセスの拡張性が大きな課題となります。
これに応えて、さまざまな臨床状況にわたって臨床電卓をキュレーションおよび適用できる新しい言語エージェントである AgentMD を紹介します。
AgentMD は、公開されている文献を使用して、実行可能な機能と構造化されたドキュメントを備えた 2,164 個の多様な臨床計算機のコレクションを自動的に厳選し、総称して RiskCalcs と名付けました。
手動評価では、RiskCalcs ツールが 3 つの品質指標に関して 80% 以上の精度を達成していることが示されています。
AgentMD は推論時に、患者の説明に応じて関連する RiskCalcs ツールを自動的に選択して適用できます。
新しく確立された RiskQA ベンチマークでは、AgentMD は GPT-4 による思考連鎖プロンプトを大幅に上回っています (精度で 87.7% 対 40.9%)。
さらに、人口レベルとリスクレベルの両方の患者特性を分析するために、AgentMD を現実世界の臨床ノートにも適用しました。
要約すると、私たちの研究は、医療分析と患者ケアのための臨床計算機で強化された言語エージェントの有用性を示しています。

要約(オリジナル)

Clinical calculators play a vital role in healthcare by offering accurate evidence-based predictions for various purposes such as prognosis. Nevertheless, their widespread utilization is frequently hindered by usability challenges, poor dissemination, and restricted functionality. Augmenting large language models with extensive collections of clinical calculators presents an opportunity to overcome these obstacles and improve workflow efficiency, but the scalability of the manual curation process poses a significant challenge. In response, we introduce AgentMD, a novel language agent capable of curating and applying clinical calculators across various clinical contexts. Using the published literature, AgentMD has automatically curated a collection of 2,164 diverse clinical calculators with executable functions and structured documentation, collectively named RiskCalcs. Manual evaluations show that RiskCalcs tools achieve an accuracy of over 80% on three quality metrics. At inference time, AgentMD can automatically select and apply the relevant RiskCalcs tools given any patient description. On the newly established RiskQA benchmark, AgentMD significantly outperforms chain-of-thought prompting with GPT-4 (87.7% vs. 40.9% in accuracy). Additionally, we also applied AgentMD to real-world clinical notes for analyzing both population-level and risk-level patient characteristics. In summary, our study illustrates the utility of language agents augmented with clinical calculators for healthcare analytics and patient care.

arxiv情報

著者 Qiao Jin,Zhizheng Wang,Yifan Yang,Qingqing Zhu,Donald Wright,Thomas Huang,W John Wilbur,Zhe He,Andrew Taylor,Qingyu Chen,Zhiyong Lu
発行日 2024-02-20 18:37:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク