EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models

要約

一般的な機械学習 (ML) コミュニティは公開データセット、タスク、モデルの恩恵を受けてきましたが、ヘルスケアにおける ML の進歩は、そのような共有資産の欠如によって妨げられてきました。
基盤モデルの成功により、パフォーマンス上の利点を検証するために共有の事前トレーニング済みモデルへのアクセスが必要になるため、ヘルスケア ML に新たな課題が生じます。
私たちは 3 つの貢献を通じてこれらの課題への対処を支援します。
まず、スタンフォード大学の患者 6,739 人の電子医療記録 (EHR) からの匿名化された構造化データを含む新しいデータセット EHRSHOT を公開します。
MIMIC-III/IV やその他の一般的な EHR データセットとは異なり、EHRSHOT は縦断的であり、ICU/ED 患者に限定されません。
次に、257 万人の患者の構造化 EHR データで事前トレーニングされた 1 億 4,100 万パラメータの臨床基礎モデルである CLMBR-T ベースの重みを公開します。
私たちは、コード化された EHR データのこのようなモデルを完全にリリースした最初の企業の 1 つです。
対照的に、臨床データ用にリリースされた以前のモデル (GatorTron、ClinicalBERT など) のほとんどは非構造化テキストでのみ機能し、EHR 内の豊富な構造化データを処理できません。
私たちはコミュニティがそのパフォーマンスを検証し、構築するためのエンドツーエンドのパイプラインを提供します。
3 番目に、15 の少数ショット臨床予測タスクを定義し、サンプル効率やタスク適応などの利点に関する基礎モデルの評価を可能にします。
私たちのモデルとデータセットは、スタンフォード AIMI センターからの研究データ使用契約を通じて利用できます。
結果を再現するコードは、Github リポジトリで入手できます: https://github.com/som-shahlab/ehrshot-benchmark

要約(オリジナル)

While the general machine learning (ML) community has benefited from public datasets, tasks, and models, the progress of ML in healthcare has been hampered by a lack of such shared assets. The success of foundation models creates new challenges for healthcare ML by requiring access to shared pretrained models to validate performance benefits. We help address these challenges through three contributions. First, we publish a new dataset, EHRSHOT, which contains deidentified structured data from the electronic health records (EHRs) of 6,739 patients from Stanford Medicine. Unlike MIMIC-III/IV and other popular EHR datasets, EHRSHOT is longitudinal and not restricted to ICU/ED patients. Second, we publish the weights of CLMBR-T-base, a 141M parameter clinical foundation model pretrained on the structured EHR data of 2.57M patients. We are one of the first to fully release such a model for coded EHR data; in contrast, most prior models released for clinical data (e.g. GatorTron, ClinicalBERT) only work with unstructured text and cannot process the rich, structured data within an EHR. We provide an end-to-end pipeline for the community to validate and build upon its performance. Third, we define 15 few-shot clinical prediction tasks, enabling evaluation of foundation models on benefits such as sample efficiency and task adaptation. Our model and dataset are available via a research data use agreement from the Stanford AIMI Center. Code to reproduce our results are available at our Github repo: https://github.com/som-shahlab/ehrshot-benchmark

arxiv情報

著者 Michael Wornow,Rahul Thapa,Ethan Steinberg,Jason A. Fries,Nigam H. Shah
発行日 2023-11-02 09:33:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク