AI Agents for Conversational Patient Triage: Preliminary Simulation-Based Evaluation with Real-World EHR Data

要約

背景:医療エージェントモデルの開発と検査のために合成記述被験者を提供するために、広範な条件と症状をカバーする現実世界の患者の出会いを活用する患者シミュレーターを提示します。
シミュレーターは、患者のプレゼンテーションと症状チェックエージェントとのマルチターン会話への現実的なアプローチを提供します。
目的:(1)実際のEHRデータから派生した患者ビネットに基づいて、AIヘルスエージェントを訓練およびテストするために、患者シミュレーターを構築およびインスタンス化する。
(2)患者シミュレーターが専門家の臨床プロバイダーに提供するシミュレートされた遭遇の妥当性とアラインメントをテストする。
(3)生成された現実的でデータ駆動型シミュレーションに関するこのようなLLMシステムの評価フレームワークを説明するために、提案されたシステムの予備評価をもたらします。
方法:最初に、実際のEHRの出会いから患者のビネットを導き出すことにより、現実的な臨床シナリオを構築しました。
これらのビネットは、さまざまな提示症状と根本的な条件をカバーしています。
次に、500を超える患者のビネットにわたる実際の患者の遭遇のシミュレーションとしての患者シミュレーターのパフォーマンスを評価します。
現在の病気の歴史を得るために、多ターンの質問を提供するために別のAIエージェントを活用しました。
結果として生じるマルチターン会話は、2人の専門家臨床医によって評価されました。
結果:臨床医は、同じ97.7%の症例で患者のビネットと一致して患者シミュレーターを採点しました。
会話履歴に基づいた抽出されたケースの概要は、99%の関連性がありました。
結論:症状チェック剤に対する患者の反応のシミュレーションを構築するために、実際のヘルスケア患者データから派生したビネットを組み込む方法論を開発しました。
この患者シミュレーターのパフォーマンスと整合性を使用して、多ターン会話型AIエージェントを大規模にトレーニングおよびテストできます。

要約(オリジナル)

Background: We present a Patient Simulator that leverages real world patient encounters which cover a broad range of conditions and symptoms to provide synthetic test subjects for development and testing of healthcare agentic models. The simulator provides a realistic approach to patient presentation and multi-turn conversation with a symptom-checking agent. Objectives: (1) To construct and instantiate a Patient Simulator to train and test an AI health agent, based on patient vignettes derived from real EHR data. (2) To test the validity and alignment of the simulated encounters provided by the Patient Simulator to expert human clinical providers. (3) To illustrate the evaluation framework of such an LLM system on the generated realistic, data-driven simulations — yielding a preliminary assessment of our proposed system. Methods: We first constructed realistic clinical scenarios by deriving patient vignettes from real-world EHR encounters. These vignettes cover a variety of presenting symptoms and underlying conditions. We then evaluate the performance of the Patient Simulator as a simulacrum of a real patient encounter across over 500 different patient vignettes. We leveraged a separate AI agent to provide multi-turn questions to obtain a history of present illness. The resulting multiturn conversations were evaluated by two expert clinicians. Results: Clinicians scored the Patient Simulator as consistent with the patient vignettes in those same 97.7% of cases. The extracted case summary based on the conversation history was 99% relevant. Conclusions: We developed a methodology to incorporate vignettes derived from real healthcare patient data to build a simulation of patient responses to symptom checking agents. The performance and alignment of this Patient Simulator could be used to train and test a multi-turn conversational AI agent at scale.

arxiv情報

著者 Sina Rashidian,Nan Li,Jonathan Amar,Jong Ha Lee,Sam Pugh,Eric Yang,Geoff Masterson,Myoung Cha,Yugang Jia,Akhil Vaid
発行日 2025-06-04 14:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク