Federated Learning of Medical Concepts Embedding using BEHRT

要約

電子医療記録 (EHR) データには、患者の診断、投薬、処置、治療などの医療記録が含まれています。
このデータは多くの場合、機密医療情報とみなされます。
したがって、医療センターからの EHR データは共有できないことが多く、そのようなモデルの堅牢性と一般化性に不可欠な、複数施設の EHR データを使用した予測モデルの作成が困難になります。
フェデレーション ラーニング (FL) は、すべてのデータを中央の場所に保存することなく、複数の場所にあるデータを使用して共有モデルを学習できるアルゴリズム アプローチです。
予測モデルのタスクの例としては、将来の病気を予測することが挙げられます。
より具体的には、モデルは現在および過去の臨床データに基づいて、患者の次回の訪問診断を予測する必要があります。
このような予測モデルは、医療提供者が臨床上の意思決定を行うのをサポートし、さらには予防治療を提供することもできます。
私たちは、医療概念を埋め込んで学習するための連合学習アプローチを提案します。
この事前トレーニングされたモデルは、特定の下流タスクの微調整に使用できます。
私たちのアプローチは、EHR の深部神経配列伝達モデルである BEHRT のような埋め込みモデルに基づいています。
私たちは、マスク言語モデリング (MLM) と次回訪問ダウンストリーム モデルの両方のフェデレーテッド ラーニングを使用してトレーニングします。
MIMIC-IV データセットに対するアプローチを示します。
FL でトレーニングされたモデルのパフォーマンスを、一元化されたデータでトレーニングされたモデルと比較します。
私たちのフェデレーテッド ラーニング アプローチは、集中型モデルのパフォーマンスに非常に近く、平均精度の点でローカル モデルよりも優れていることがわかりました。
また、事前トレーニングされた MLM は、事前トレーニングなしの MLM モデルと比較して、次回訪問予測タスクにおけるモデルの平均精度パフォーマンスが向上することも示します。
私たちのコードは https://github.com/nadavlab/FederatedBEHRT で入手できます。

要約(オリジナル)

Electronic Health Records (EHR) data contains medical records such as diagnoses, medications, procedures, and treatments of patients. This data is often considered sensitive medical information. Therefore, the EHR data from the medical centers often cannot be shared, making it difficult to create prediction models using multi-center EHR data, which is essential for such models’ robustness and generalizability. Federated Learning (FL) is an algorithmic approach that allows learning a shared model using data in multiple locations without the need to store all data in a central place. An example of a prediction model’s task is to predict future diseases. More specifically, the model needs to predict patient’s next visit diagnoses, based on current and previous clinical data. Such a prediction model can support care providers in making clinical decisions and even provide preventive treatment. We propose a federated learning approach for learning medical concepts embedding. This pre-trained model can be used for fine-tuning for specific downstream tasks. Our approach is based on an embedding model like BEHRT, a deep neural sequence transduction model for EHR. We train using federated learning, both the Masked Language Modeling (MLM) and the next visit downstream model. We demonstrate our approach on the MIMIC-IV dataset. We compare the performance of a model trained with FL against a model trained on centralized data. We find that our federated learning approach reaches very close to the performance of a centralized model, and it outperforms local models in terms of average precision. We also show that pre-trained MLM improves the model’s average precision performance in the next visit prediction task, compared to an MLM model without pre-training. Our code is available at https://github.com/nadavlab/FederatedBEHRT.

arxiv情報

著者 Ofir Ben Shoham,Nadav Rappoport
発行日 2023-05-22 14:05:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク