EHRSHOT: An EHR Benchmark for Few-Shot Evaluation of Foundation Models

要約

一般的な機械学習 (ML) コミュニティは公開データセット、タスク、モデルの恩恵を受けてきましたが、ヘルスケアにおける ML の進歩は、そのような共有資産の欠如によって妨げられてきました。
基盤モデルの成功により、パフォーマンス上の利点を検証するために共有の事前トレーニング済みモデルへのアクセスが必要になるため、ヘルスケア ML に新たな課題が生じます。
私たちは 3 つの貢献を通じてこれらの課題への対処を支援します。
まず、スタンフォード大学の患者 6,712 人の電子医療記録 (EHR) からの匿名化された構造化データを含む新しいデータセット EHRSHOT を公開します。
MIMIC-III/IV やその他の一般的な EHR データセットとは異なり、EHRSHOT は縦断的であり、ICU/ED 患者に限定されません。
次に、257 万人の患者の構造化 EHR データで事前トレーニングされた 1 億 4,100 万のパラメータの臨床基礎モデルの重みを公開します。
私たちは、コード化された EHR データのこのようなモデルを完全にリリースした最初の企業の 1 つです。
対照的に、臨床データ用にリリースされた以前のモデル (GatorTron、ClinicalBERT など) のほとんどは非構造化テキストでのみ機能し、EHR 内の豊富な構造化データを処理できません。
私たちはコミュニティがそのパフォーマンスを検証し、構築するためのエンドツーエンドのパイプラインを提供します。
3 番目に、15 の少数ショット臨床予測タスクを定義し、サンプル効率やタスク適応などの利点に関する基礎モデルの評価を可能にします。
結果を再現するコード、およびモデルとデータセット (研究データ使用契約経由) は、こちらの Github リポジトリで入手できます: https://github.com/som-shahlab/ehrshot-benchmark

要約(オリジナル)

While the general machine learning (ML) community has benefited from public datasets, tasks, and models, the progress of ML in healthcare has been hampered by a lack of such shared assets. The success of foundation models creates new challenges for healthcare ML by requiring access to shared pretrained models to validate performance benefits. We help address these challenges through three contributions. First, we publish a new dataset, EHRSHOT, containing de-identified structured data from the electronic health records (EHRs) of 6,712 patients from Stanford Medicine. Unlike MIMIC-III/IV and other popular EHR datasets, EHRSHOT is longitudinal and not restricted to ICU/ED patients. Second, we publish the weights of a 141M parameter clinical foundation model pretrained on the structured EHR data of 2.57M patients. We are one of the first to fully release such a model for coded EHR data; in contrast, most prior models released for clinical data (e.g. GatorTron, ClinicalBERT) only work with unstructured text and cannot process the rich, structured data within an EHR. We provide an end-to-end pipeline for the community to validate and build upon its performance. Third, we define 15 few-shot clinical prediction tasks, enabling evaluation of foundation models on benefits such as sample efficiency and task adaption. The code to reproduce our results, as well as the model and dataset (via a research data use agreement), are available at our Github repo here: https://github.com/som-shahlab/ehrshot-benchmark

arxiv情報

著者 Michael Wornow,Rahul Thapa,Ethan Steinberg,Jason Fries,Nigam Shah
発行日 2023-07-05 05:24:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク