Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias

要約

背景: 臨床上の意思決定における認知バイアスは、診断の誤りや最適ではない患者転帰に大きく寄与しています。
これらの偏見に対処することは、医療分野において大きな課題となります。
この研究では、マルチエージェント フレームワークの利用を通じてこれらのバイアスを軽減する上での大規模言語モデル (LLM) の役割を調査します。
マルチエージェントの会話を通じて臨床意思決定プロセスをシミュレートし、診断精度の向上におけるその有効性を評価します。
方法: 認知バイアスが誤診を引き起こした合計 16 件の公表済みおよび未公表の症例報告が文献から特定されました。
マルチエージェント システムでは、GPT-4 Turbo を活用して 4 人のシミュレートされたエージェント間の相互作用を促進し、臨床チームのダイナミクスを再現しました。
各エージェントには明確な役割があります: 1) 議論を考慮した後に最初と最終の診断を行うこと、2) 悪魔の代弁者であり、確証バイアスとアンカリングバイアスを修正すること、3) 早期終了バイアスを減らすための議論の家庭教師および進行役、および 4
)調査結果を記録し、要約する。
合計 80 回のシミュレーションで、初期診断、最上位の鑑別診断、および最後の 2 つの鑑別診断の精度が評価されました。
調査結果: 初期診断と最終診断の両方を評価する合計 80 件の回答において、初期診断の精度は 0% (0/80) でしたが、複数のエージェントによるディスカッションの後、最上位の鑑別診断の精度は 71.3% (57
/80)、最後の 2 つの鑑別診断では 80.0% (64/80) になります。
このシステムは、初期調査が誤解を招くシナリオであっても、誤解を再評価して修正できる能力を実証しました。
解釈: LLM 主導のマルチエージェント会話システムは、診断が困難な医療シナリオにおいて診断精度を向上させる可能性を示しています。

要約(オリジナル)

Background: Cognitive biases in clinical decision-making significantly contribute to errors in diagnosis and suboptimal patient outcomes. Addressing these biases presents a formidable challenge in the medical field. This study explores the role of large language models (LLMs) in mitigating these biases through the utilization of a multi-agent framework. We simulate the clinical decision-making processes through multi-agent conversation and evaluate its efficacy in improving diagnostic accuracy. Methods: A total of 16 published and unpublished case reports where cognitive biases have resulted in misdiagnoses were identified from the literature. In the multi-agent system, we leveraged GPT-4 Turbo to facilitate interactions among four simulated agents to replicate clinical team dynamics. Each agent has a distinct role: 1) To make the initial and final diagnosis after considering the discussions, 2) The devil’s advocate and correct confirmation and anchoring bias, 3) The tutor and facilitator of the discussion to reduce premature closure bias, and 4) To record and summarize the findings. A total of 80 simulations were evaluated for the accuracy of initial diagnosis, top differential diagnosis and final two differential diagnoses. Findings: In a total of 80 responses evaluating both initial and final diagnoses, the initial diagnosis had an accuracy of 0% (0/80), but following multi-agent discussions, the accuracy for the top differential diagnosis increased to 71.3% (57/80), and for the final two differential diagnoses, to 80.0% (64/80). The system demonstrated an ability to reevaluate and correct misconceptions, even in scenarios with misleading initial investigations. Interpretation: The LLM-driven multi-agent conversation system shows promise in enhancing diagnostic accuracy in diagnostically challenging medical scenarios.

arxiv情報

著者 Yu He Ke,Rui Yang,Sui An Lie,Taylor Xin Yi Lim,Hairil Rizal Abdullah,Daniel Shu Wei Ting,Nan Liu
発行日 2024-01-26 01:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク