Accelerating Clinical Evidence Synthesis with Large Language Models

要約

AI による自動医療発見は多くの人の夢です。
その目標に向けた 1 つのステップは、臨床研究を理解し、文献から臨床証拠を総合するための AI モデルを作成することです。
臨床証拠の統合は現在、臨床試験の系統的レビューと医学文献からの遡及的分析に依存しています。
しかし、出版物の急速な拡大により、証拠を効率的に特定、要約、更新する際に課題が生じています。
研究検索、スクリーニング、データ抽出フェーズを含む医療系統的レビューを実施するための生成 AI ベースのパイプラインである TrialMind を紹介します。
大規模言語モデル (LLM) を利用して各パイプライン コンポーネントを駆動し、人間の専門家の監視を組み込んでエラーを最小限に抑えます。
評価を容易にするために、ベンチマーク データセット TrialReviewBench も作成します。これは、さまざまな医療に関する 25 件のメタ分析論文からの 870 件の注釈付き臨床研究を含むカスタム データセットです。
私たちの結果は、TrialMind が文献レビュープロセスを大幅に改善し、2,000 万を超える PubMed 研究からの研究検索で高い再現率 (0.897 ~ 1.000) を達成し、スクリーニングにおいて従来の言語モデル埋め込みベースの方法を上回るパフォーマンスを示していることを示しています (再現率 @20 が 0.227 ~ 0.246 対
0.000~0.102)。
さらに、私たちのアプローチは、結果抽出において直接の GPT-4 パフォーマンスを上回り、精度は 0.65 ~ 0.84 の範囲です。
また、フォレスト プロットでの臨床証拠の統合もサポートしています。これは、関係するレビュー全体で 62.5% ~ 100% の勝率で、GPT-4 ベースラインよりも TrialMind を好んだ 8 人の人間のアノテーターによって検証されています。
私たちの調査結果は、TrialMind などの LLM ベースの臨床証拠統合アプローチにより、信頼性の高い高品質の臨床証拠統合を可能にし、臨床研究の効率を向上できることを示唆しています。

要約(オリジナル)

Automatic medical discovery by AI is a dream of many. One step toward that goal is to create an AI model to understand clinical studies and synthesize clinical evidence from the literature. Clinical evidence synthesis currently relies on systematic reviews of clinical trials and retrospective analyses from medical literature. However, the rapid expansion of publications presents challenges in efficiently identifying, summarizing, and updating evidence. We introduce TrialMind, a generative AI-based pipeline for conducting medical systematic reviews, encompassing study search, screening, and data extraction phases. We utilize large language models (LLMs) to drive each pipeline component while incorporating human expert oversight to minimize errors. To facilitate evaluation, we also create a benchmark dataset TrialReviewBench, a custom dataset with 870 annotated clinical studies from 25 meta-analysis papers across various medical treatments. Our results demonstrate that TrialMind significantly improves the literature review process, achieving high recall rates (0.897-1.000) in study searching from over 20 million PubMed studies and outperforming traditional language model embeddings-based methods in screening (Recall@20 of 0.227-0.246 vs. 0.000-0.102). Furthermore, our approach surpasses direct GPT-4 performance in result extraction, with accuracy ranging from 0.65 to 0.84. We also support clinical evidence synthesis in forest plots, as validated by eight human annotators who preferred TrialMind over the GPT-4 baseline with a winning rate of 62.5%-100% across the involved reviews. Our findings suggest that an LLM-based clinical evidence synthesis approach, such as TrialMind, can enable reliable and high-quality clinical evidence synthesis to improve clinical research efficiency.

arxiv情報

著者 Zifeng Wang,Lang Cao,Benjamin Danek,Yichi Zhang,Qiao Jin,Zhiyong Lu,Jimeng Sun
発行日 2024-06-25 17:41:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク