Improving Patient Pre-screening for Clinical Trials: Assisting Physicians with Large Language Models

要約

タイトル:Large Language Modelsを使用した医師の臨床試験前スクリーニングの改善

要約:

– 医師は、患者の医療プロフィールをチェックして試験資格を決定するとき、テキストベースの資格要件を多数確認する必要があります。
– Large Language Models(LLMs)は、医療情報の抽出や医療推論、医療検査などの分野で良好なパフォーマンスを発揮しているが、実際の現場での活用はまだ進んでいない。
– 本論文は、InstructGPTを使用して、患者の要約された医療プロフィールを基に、臨床試験の資格を診断支援するためにLLMsを調査した。
– 1つのショット、選択推論、思考の連鎖技術を組み合わせた質問戦略を使って、10の合成された患者プロファイルのLLMsのパフォーマンスを評価した。
– パフォーマンスは、試験からスクリーニング可能な資格要件を識別する能力、各個別の要件が患者に適用されるかどうかを分類する能力、患者が臨床試験に資格があるかどうかを総合的に分類する能力、医師がスクリーニングする必要のある要件の割合の4つのレベルで評価された。
– 評価は146件の臨床試験と4,135の資格要件に対して行われ、LLMは4,135の基準の72%(2.994 / 4.135)を正しく識別できた。
– さらに、スクリーニング可能な基準の72%(341 / 471)が正しく評価された。
– 結果として、試験ごとの分類が資格があるかどうかに応じて、再現率は0.5となった。
– 医師との連携によるLLMsの活用により、試験ごとの再現率1.0と精度0.71を実現でき、要件のチェック量を見積もって90%まで削減できる。
– LLMsは、患者の臨床試験前スクリーニングを支援するために使用できます。
– Instruct-tuned LLMsにチェーンオブサウト応答を生成するように強制することで、推論を医師が理解できるようにし、システムを現実的な現場で使いやすくすることができます。

要約(オリジナル)

Physicians considering clinical trials for their patients are met with the laborious process of checking many text based eligibility criteria. Large Language Models (LLMs) have shown to perform well for clinical information extraction and clinical reasoning, including medical tests, but not yet in real-world scenarios. This paper investigates the use of InstructGPT to assist physicians in determining eligibility for clinical trials based on a patient’s summarised medical profile. Using a prompting strategy combining one-shot, selection-inference and chain-of-thought techniques, we investigate the performance of LLMs on 10 synthetically created patient profiles. Performance is evaluated at four levels: ability to identify screenable eligibility criteria from a trial given a medical profile; ability to classify for each individual criterion whether the patient qualifies; the overall classification whether a patient is eligible for a clinical trial and the percentage of criteria to be screened by physician. We evaluated against 146 clinical trials and a total of 4,135 eligibility criteria. The LLM was able to correctly identify the screenability of 72% (2,994/4,135) of the criteria. Additionally, 72% (341/471) of the screenable criteria were evaluated correctly. The resulting trial level classification as eligible or ineligible resulted in a recall of 0.5. By leveraging LLMs with a physician-in-the-loop, a recall of 1.0 and precision of 0.71 on clinical trial level can be achieved while reducing the amount of criteria to be checked by an estimated 90%. LLMs can be used to assist physicians with pre-screening of patients for clinical trials. By forcing instruction-tuned LLMs to produce chain-of-thought responses, the reasoning can be made transparent to and the decision process becomes amenable by physicians, thereby making such a system feasible for use in real-world scenarios.

arxiv情報

著者 Danny M. den Hamer,Perry Schoor,Tobias B. Polak,Daniel Kapitan
発行日 2023-04-14 21:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.1 パーマリンク