要約
大規模言語モデル(LLM)は、一般的な領域において素晴らしい推論能力を示しているが、実臨床における有効性は依然として限定的である。これは、学習中に実臨床データに十分に触れることができないためであると考えられる。この問題に対処するため、我々は実臨床データを活用することで、LLMの臨床推論能力を強化することを提案する。我々は、全国的な敗血症レジストリから推論に重点を置いた質問を構築し、強化学習を用いてこれらの質問に対するPhi-4を微調整し、C-Reasonを作成した。C-Reasonは、定量的指標と専門家の評価の両方によって証明されるように、領域内テストセットで強力な臨床推論能力を示した。さらに、C-Reasonの推論能力は、異なるタスクと患者コホートを含む敗血症データセット、抗生物質の使用に関する自由形式の相談タスク、および他の疾患にも汎化された。今後の研究では、より強力で汎用的な臨床推論モデルを開発するために、大規模な複数疾患の臨床データセットを用いてLLMを訓練することに焦点を当てるべきである。
要約(オリジナル)
Although large language models (LLMs) have demonstrated impressive reasoning capabilities across general domains, their effectiveness in real-world clinical practice remains limited. This is likely due to their insufficient exposure to real-world clinical data during training, as such data is typically not included due to privacy concerns. To address this, we propose enhancing the clinical reasoning capabilities of LLMs by leveraging real-world clinical data. We constructed reasoning-intensive questions from a nationwide sepsis registry and fine-tuned Phi-4 on these questions using reinforcement learning, resulting in C-Reason. C-Reason exhibited strong clinical reasoning capabilities on the in-domain test set, as evidenced by both quantitative metrics and expert evaluations. Furthermore, its enhanced reasoning capabilities generalized to a sepsis dataset involving different tasks and patient cohorts, an open-ended consultations on antibiotics use task, and other diseases. Future research should focus on training LLMs with large-scale, multi-disease clinical datasets to develop more powerful, general-purpose clinical reasoning models.
arxiv情報
著者 | Junu Kim,Chaeeun Shim,Sungjin Park,Su Yeon Lee,Gee Young Suh,Chae-Man Lim,Seong Jin Choi,Song Mi Moon,Kyoung-Ho Song,Eu Suk Kim,Hong Bin Kim,Sejoong Kim,Chami Im,Dong-Wan Kang,Yong Soo Kim,Hee-Joon Bae,Sung Yoon Lim,Han-Gil Jeong,Edward Choi |
発行日 | 2025-05-05 15:23:47+00:00 |
arxivサイト | arxiv_id(pdf) |