要約
Deepseek-R1やOpenai-O3などの最新の推論強化ラージモデル(推論LLM)は、驚くべき成功を示しています。
ただし、特に最終世代を評価するだけでなく、推論プロセスの質を調べることに関して、このような推論強化の高度な医療領域への適用は明確に評価されていません。
この研究では、MEDRベンチを提示します。これは、1,453の構造化された患者症例を含む推論に焦点を当てた医学的評価ベンチマークで、症例報告から採掘された推論参照を備えています。
私たちのベンチマークは、一般的な疾患とまれな疾患の両方を含む13の身体システムと10の特殊障害に及びます。
評価では、3つの重要な臨床段階で構成される汎用性のあるフレームワークを紹介します。評価の推奨、診断意思決定、治療計画を紹介し、ヘルスケアの患者の旅全体でLLMSのパフォーマンスを包括的に獲得します。
メトリックについては、効率、事実性、および完全性の観点からスケーラブルな方法でフリーテキストの推論応答を自動化および客観的に定量化するように設計された新しいエージェントシステムである推論評価者を提案します。
その結果、DeepSeek-R1、Openai-O3-Miniなど、5つの最先端の推論LLMを評価します。
我々の結果は、現在のLLMが十分な重要な評価結果を伴う比較的単純な診断タスクを処理できることを明らかにし、一般に85%を超える精度を達成しています。
しかし、彼らは依然として、評価の推奨や治療計画など、より複雑なタスクに苦労しています。
推論では、彼らの推論プロセスは一般に信頼性が高く、事実上のスコアは90%を超えていますが、多くの場合、重要な推論ステップを省略しています。
私たちの研究は、現在の臨床LLMのさらなる開発方向を明確に明らかにしています。
要約(オリジナル)
The latest reasoning-enhanced large language models (reasoning LLMs), such as DeepSeek-R1 and OpenAI-o3, have demonstrated remarkable success. However, the application of such reasoning enhancements to the highly professional medical domain has not been clearly evaluated, particularly regarding with not only assessing the final generation but also examining the quality of their reasoning processes. In this study, we present MedR-Bench, a reasoning-focused medical evaluation benchmark comprising 1,453 structured patient cases with reasoning references mined from case reports. Our benchmark spans 13 body systems and 10 specialty disorders, encompassing both common and rare diseases. In our evaluation, we introduce a versatile framework consisting of three critical clinical stages: assessment recommendation, diagnostic decision-making, and treatment planning, comprehensively capturing the LLMs’ performance across the entire patient journey in healthcare. For metrics, we propose a novel agentic system, Reasoning Evaluator, designed to automate and objectively quantify free-text reasoning responses in a scalable manner from the perspectives of efficiency, factuality, and completeness by dynamically searching and performing cross-referencing checks. As a result, we assess five state-of-the-art reasoning LLMs, including DeepSeek-R1, OpenAI-o3-mini, and others. Our results reveal that current LLMs can handle relatively simple diagnostic tasks with sufficient critical assessment results, achieving accuracy generally over 85%. However, they still struggle with more complex tasks, such as assessment recommendation and treatment planning. In reasoning, their reasoning processes are generally reliable, with factuality scores exceeding 90%, though they often omit critical reasoning steps. Our study clearly reveals further development directions for current clinical LLMs.
arxiv情報
著者 | Pengcheng Qiu,Chaoyi Wu,Shuyu Liu,Weike Zhao,Ya Zhang,Yanfeng Wang,Weidi Xie |
発行日 | 2025-03-06 18:35:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google