Improving Patient Pre-screening for Clinical Trials: Assisting Physicians with Large Language Models

要約

患者のための臨床試験を検討している医師は、多くのテキストベースの適格基準をチェックするという面倒なプロセスに直面しています。
大規模言語モデル (LLM) は、医療検査を含む臨床情報の抽出と臨床推論に優れたパフォーマンスを発揮することが示されていますが、現実世界のシナリオではまだ成功していません。
この論文では、医師が患者の要約された医学的プロフィールに基づいて臨床試験の適格性を判断するのを支援するための InstructGPT の使用について調査します。
ワンショット、選択推論、および思考連鎖技術を組み合わせたプロンプト戦略を使用して、合成的に作成された 10 人の患者プロファイルに対する LLM のパフォーマンスを調査します。
パフォーマンスは 4 つのレベルで評価されます。医学的プロファイルを考慮した試験からスクリーニング可能な適格基準を特定する能力。
患者が該当するかどうかを個々の基準ごとに分類する能力。
患者が臨床試験の対象となるかどうかの全体的な分類と、医師がスクリーニングする基準の割合。
私たちは 146 の臨床試験と合計 4,135 の適格基準に対して評価しました。
LLM は、基準の 72% (2,994/4,135) のスクリーニング可能性を正確に特定できました。
さらに、スクリーニング可能な基準の 72% (341/471) が正しく評価されました。
試験レベルの適格または不適格の分類の結果、リコールは 0.5 となりました。
LLM を医師と連携して活用することで、臨床試験レベルで再現率 1.0 と精度 0.71 を達成できると同時に、チェックすべき基準の量を推定 90% 削減できます。
LLM は、医師による臨床試験のための患者の事前スクリーニングを支援するために使用できます。
命令に合わせて調整された LLM に強制的に思考連鎖応答を生成させることで、医師にとって推論が透明になり、意思決定プロセスが従順になるため、このようなシステムを現実世界のシナリオで使用できるようになります。

要約(オリジナル)

Physicians considering clinical trials for their patients are met with the laborious process of checking many text based eligibility criteria. Large Language Models (LLMs) have shown to perform well for clinical information extraction and clinical reasoning, including medical tests, but not yet in real-world scenarios. This paper investigates the use of InstructGPT to assist physicians in determining eligibility for clinical trials based on a patient’s summarised medical profile. Using a prompting strategy combining one-shot, selection-inference and chain-of-thought techniques, we investigate the performance of LLMs on 10 synthetically created patient profiles. Performance is evaluated at four levels: ability to identify screenable eligibility criteria from a trial given a medical profile; ability to classify for each individual criterion whether the patient qualifies; the overall classification whether a patient is eligible for a clinical trial and the percentage of criteria to be screened by physician. We evaluated against 146 clinical trials and a total of 4,135 eligibility criteria. The LLM was able to correctly identify the screenability of 72% (2,994/4,135) of the criteria. Additionally, 72% (341/471) of the screenable criteria were evaluated correctly. The resulting trial level classification as eligible or ineligible resulted in a recall of 0.5. By leveraging LLMs with a physician-in-the-loop, a recall of 1.0 and precision of 0.71 on clinical trial level can be achieved while reducing the amount of criteria to be checked by an estimated 90%. LLMs can be used to assist physicians with pre-screening of patients for clinical trials. By forcing instruction-tuned LLMs to produce chain-of-thought responses, the reasoning can be made transparent to and the decision process becomes amenable by physicians, thereby making such a system feasible for use in real-world scenarios.

arxiv情報

著者 Danny M. den Hamer,Perry Schoor,Tobias B. Polak,Daniel Kapitan
発行日 2023-06-29 12:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.1 パーマリンク