LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health Conditions

要約

大規模な言語モデル(LLM)は、疾患の分類と臨床的意思決定の両方を強化することにより、医療診断に革命をもたらしています。
この研究では、症状と診断の構造化されたデータセットを使用して、2つのLLMベースの診断ツールであるDeepSeek R1とO3 Miniのパフォーマンスを評価します。
疾患とカテゴリーのレベルの両方で予測精度、および自信スコアの信頼性を評価しました。
Deepseek R1は、76%の疾患レベルの精度と82%の全体的な精度を達成し、それぞれ72%と75%を達成したO3 Miniを上回りました。
特に、Deepseek R1は、精神衛生、神経障害、および腫瘍学の例外的なパフォーマンスを実証し、100%の精度に達しましたが、O3 Miniは100%精度で自己免疫疾患分類に優れていました。
ただし、両方のモデルは呼吸器疾患の分類に苦労し、Deepseek R1で40%、O3 Miniで20%の精度を記録しました。
さらに、信頼スコアの分析により、DeepSeek R1は、O3 Miniの68%と比較して、症例の92%で高い自信予測を提供したことが明らかになりました。
LLMの臨床診療への責任ある統合を確保するために、バイアス、モデルの解釈可能性、およびデータプライバシーに関する倫理的考慮事項も議論されています。
全体として、私たちの調査結果は、LLMベースの診断システムの強みと制限に関する貴重な洞察を提供し、AI駆動型ヘルスケアの将来の強化のためのロードマップを提供します。

要約(オリジナル)

Large Language Models (LLMs) are revolutionizing medical diagnostics by enhancing both disease classification and clinical decision-making. In this study, we evaluate the performance of two LLM- based diagnostic tools, DeepSeek R1 and O3 Mini, using a structured dataset of symptoms and diagnoses. We assessed their predictive accuracy at both the disease and category levels, as well as the reliability of their confidence scores. DeepSeek R1 achieved a disease-level accuracy of 76% and an overall accuracy of 82%, outperforming O3 Mini, which attained 72% and 75% respectively. Notably, DeepSeek R1 demonstrated exceptional performance in Mental Health, Neurological Disorders, and Oncology, where it reached 100% accuracy, while O3 Mini excelled in Autoimmune Disease classification with 100% accuracy. Both models, however, struggled with Respiratory Disease classification, recording accuracies of only 40% for DeepSeek R1 and 20% for O3 Mini. Additionally, the analysis of confidence scores revealed that DeepSeek R1 provided high-confidence predictions in 92% of cases, compared to 68% for O3 Mini. Ethical considerations regarding bias, model interpretability, and data privacy are also discussed to ensure the responsible integration of LLMs into clinical practice. Overall, our findings offer valuable insights into the strengths and limitations of LLM-based diagnostic systems and provide a roadmap for future enhancements in AI-driven healthcare.

arxiv情報

著者 Gaurav Kumar Gupta,Pranal Pande
発行日 2025-03-13 15:54:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク