要約
臨床言語モデルは、退院概要や医療ノートなどのドメイン固有のコーパスを事前に削除することにより、下流のタスクで強力なパフォーマンスを達成しています。
ただし、ほとんどのアプローチは、電子健康記録を静的な文書として扱い、患者の軌跡の一時的に進化し、因果的に誘惑された性質を無視しています。
この論文では、臨床ドメインの言語モデルの新規時間的密接な事前化目標を紹介します。
私たちの方法は、EHRセグメントを一時的に順序付けられた文のペアとして定式化し、モデルをトレーニングして、後の状態が以前の状態に関して、または矛盾する、または中立であるかどうかを判断します。
この一時的に構造化された事前トレーニングタスクを通じて、モデルは時間の経過とともに潜在的な臨床的推論を実行することを学び、予測および診断タスク全体に一般化する能力を向上させます。
私たちは、模倣IVに由来する大きなコーパスで脱線し、時間的臨床QA、早期警告予測、および疾患の進行モデリングに関する最先端の結果を示します。
要約(オリジナル)
Clinical language models have achieved strong performance on downstream tasks by pretraining on domain specific corpora such as discharge summaries and medical notes. However, most approaches treat the electronic health record as a static document, neglecting the temporally-evolving and causally entwined nature of patient trajectories. In this paper, we introduce a novel temporal entailment pretraining objective for language models in the clinical domain. Our method formulates EHR segments as temporally ordered sentence pairs and trains the model to determine whether a later state is entailed by, contradictory to, or neutral with respect to an earlier state. Through this temporally structured pretraining task, models learn to perform latent clinical reasoning over time, improving their ability to generalize across forecasting and diagnosis tasks. We pretrain on a large corpus derived from MIMIC IV and demonstrate state of the art results on temporal clinical QA, early warning prediction, and disease progression modeling.
arxiv情報
著者 | Tatsunori Tanaka,Fi Zheng,Kai Sato,Zhifeng Li,Yuanyun Zhang,Shi Li |
発行日 | 2025-04-25 07:30:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google