要約
この作業では、動的診断設定でLLMパフォーマンスを評価および強化するために設計された医師、患者、および測定剤を対象としたオープンソースシミュレーション臨床環境であるMedagentsimを紹介します。
以前のアプローチとは異なり、当社のフレームワークでは、医師がマルチターン会話を通じて患者と積極的に関与する必要があり、関連する健康診断(温度、血圧、ECG)およびイメージング結果(例:MRI、X線)を測定剤から要求して、実際の診断プロセスを模倣します。
さらに、モデルが診断戦略を繰り返し改善できるようにする自己改善メカニズムを組み込みます。
マルチエージェントの議論、考え方の推論、および経験ベースの知識の検索を統合することにより、シミュレートされた設定でLLMパフォーマンスを向上させ、医師のエージェントがより多くの患者と相互作用するにつれて進歩的な学習を促進します。
また、動的でコンテキストを意識した診断相互作用に従事するLLMの能力を評価するための評価ベンチマークを紹介します。
Medagentimは完全に自動化されていますが、ユーザー制御モードもサポートし、医師または患者のエージェントとの人間の相互作用を可能にします。
さまざまなシミュレートされた診断シナリオの包括的な評価は、私たちのアプローチの有効性を示しています。
コード、シミュレーションツール、およびベンチマークは、\ href {https://medagentim.netlify.app/}で入手できます。
要約(オリジナル)
In this work, we introduce MedAgentSim, an open-source simulated clinical environment with doctor, patient, and measurement agents designed to evaluate and enhance LLM performance in dynamic diagnostic settings. Unlike prior approaches, our framework requires doctor agents to actively engage with patients through multi-turn conversations, requesting relevant medical examinations (e.g., temperature, blood pressure, ECG) and imaging results (e.g., MRI, X-ray) from a measurement agent to mimic the real-world diagnostic process. Additionally, we incorporate self improvement mechanisms that allow models to iteratively refine their diagnostic strategies. We enhance LLM performance in our simulated setting by integrating multi-agent discussions, chain-of-thought reasoning, and experience-based knowledge retrieval, facilitating progressive learning as doctor agents interact with more patients. We also introduce an evaluation benchmark for assessing the LLM’s ability to engage in dynamic, context-aware diagnostic interactions. While MedAgentSim is fully automated, it also supports a user-controlled mode, enabling human interaction with either the doctor or patient agent. Comprehensive evaluations in various simulated diagnostic scenarios demonstrate the effectiveness of our approach. Our code, simulation tool, and benchmark are available at \href{https://medagentsim.netlify.app/}.
arxiv情報
著者 | Mohammad Almansoori,Komal Kumar,Hisham Cholakkal |
発行日 | 2025-03-28 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google