Performance of Large Language Models in Supporting Medical Diagnosis and Treatment

要約

大規模な言語モデル(LLMS)をヘルスケアに統合すると、診断の精度を高め、医療計画をサポートする大きな可能性があります。
これらのAI駆動型システムは、膨大なデータセットを分析し、臨床医が病気を特定し、治療を推奨し、患者の転帰を予測するのを支援します。
この研究では、標準化された医療知識評価である2024年のポルトガル国立医療アクセス(PNA)の2024年のポルトガル国家試験(PNA)で、オープンソースモデルと閉鎖モデルの両方を含む、さまざまな現代LLMのパフォーマンスを評価します。
私たちの結果は、精度と費用対効果のかなりのばらつきを強調しており、いくつかのモデルがこの特定のタスクで医学生の人間のベンチマークを超えるパフォーマンスを示しています。
正確性とコストの組み合わせスコアに基づいて主要なモデルを特定し、考え方のような推論方法論の意味を議論し、LLMが複雑な臨床的意思決定における医療専門家を支援する貴重な補完ツールとして機能する可能性を強調します。

要約(オリジナル)

The integration of Large Language Models (LLMs) into healthcare holds significant potential to enhance diagnostic accuracy and support medical treatment planning. These AI-driven systems can analyze vast datasets, assisting clinicians in identifying diseases, recommending treatments, and predicting patient outcomes. This study evaluates the performance of a range of contemporary LLMs, including both open-source and closed-source models, on the 2024 Portuguese National Exam for medical specialty access (PNA), a standardized medical knowledge assessment. Our results highlight considerable variation in accuracy and cost-effectiveness, with several models demonstrating performance exceeding human benchmarks for medical students on this specific task. We identify leading models based on a combined score of accuracy and cost, discuss the implications of reasoning methodologies like Chain-of-Thought, and underscore the potential for LLMs to function as valuable complementary tools aiding medical professionals in complex clinical decision-making.

arxiv情報

著者 Diogo Sousa,Guilherme Barbosa,Catarina Rocha,Dulce Oliveira
発行日 2025-04-14 16:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET, cs.HC, I.2.7 パーマリンク