Large Language Models are Powerful EHR Encoders

要約

電子健康記録(EHR)は臨床的予測の豊富な可能性を提供しますが、それらの固有の複雑さと不均一性は、従来の機械学習アプローチに大きな課題をもたらします。
非標識EHRデータの大規模なコレクションで訓練されたドメイン固有のEHR基礎モデルは、予測精度と一般化の有望な改善を実証しています。
ただし、彼らのトレーニングは、コーディング基準とヘルスケア慣行における多様で高品質のデータセットと矛盾へのアクセスが制限されています。
この研究では、EHRエンコーダーとして汎用の大規模言語モデル(LLMS)ベースの埋め込み方法を使用する可能性を探ります。
患者の記録を構造化されたマークダウンテキストにシリアル化することにより、コードを人間の読み取り可能な記述子に変換することにより、広大な公共のコーパスで前処理されたLLMの広範な一般化能力を活用して、独自の医療データセットの必要性をバイパスします。
2つの最先端のLLM埋め込みモデル、GTE-QWEN2-7B-InstructおよびLLM2VEC-LLAMA3.1-8B-instructをEhrshotベンチマークから15の多様な臨床予測タスクで、パフォーマンスを比較して、パフォーマンスを比較して体系的に評価します。
EHRSpecific Foundationモデル、Crimbr-T-Base、および従来の機械学習ベースライン。
私たちの結果は、LLMベースの埋め込みが、少ないショット設定であっても、特殊なモデルのパフォーマンスに頻繁に一致するか、それを超えることを示しており、その有効性が基礎となるLLMのサイズと利用可能なコンテキストウィンドウのサイズを拡大していることを示しています。
全体として、我々の調査結果は、EHRエンコードのLLMを再利用することで、従来のEHRモデリングの制限を克服し、より操作可能で一般化可能なヘルスケアアプリケーションを促進することができる臨床予測のためのスケーラブルで効果的なアプローチを提供することを示しています。

要約(オリジナル)

Electronic Health Records (EHRs) offer rich potential for clinical prediction, yet their inherent complexity and heterogeneity pose significant challenges for traditional machine learning approaches. Domain-specific EHR foundation models trained on large collections of unlabeled EHR data have demonstrated promising improvements in predictive accuracy and generalization; however, their training is constrained by limited access to diverse, high-quality datasets and inconsistencies in coding standards and healthcare practices. In this study, we explore the possibility of using general-purpose Large Language Models (LLMs) based embedding methods as EHR encoders. By serializing patient records into structured Markdown text, transforming codes into human-readable descriptors, we leverage the extensive generalization capabilities of LLMs pretrained on vast public corpora, thereby bypassing the need for proprietary medical datasets. We systematically evaluate two state-of-the-art LLM-embedding models, GTE-Qwen2-7B-Instruct and LLM2Vec-Llama3.1-8B-Instruct, across 15 diverse clinical prediction tasks from the EHRSHOT benchmark, comparing their performance to an EHRspecific foundation model, CLIMBR-T-Base, and traditional machine learning baselines. Our results demonstrate that LLM-based embeddings frequently match or exceed the performance of specialized models, even in few-shot settings, and that their effectiveness scales with the size of the underlying LLM and the available context window. Overall, our findings demonstrate that repurposing LLMs for EHR encoding offers a scalable and effective approach for clinical prediction, capable of overcoming the limitations of traditional EHR modeling and facilitating more interoperable and generalizable healthcare applications.

arxiv情報

著者 Stefan Hegselmann,Georg von Arnim,Tillmann Rheude,Noel Kronenberg,David Sontag,Gerhard Hindricks,Roland Eils,Benjamin Wild
発行日 2025-02-24 18:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク