Adapting Pretrained Language Models for Solving Tabular Prediction Problems in the Electronic Health Record

要約

ドメイン適応を使用して、電子カルテ (EHR) タスクに DeBERTa モデルを適応させるためのアプローチを提案します。
MIMIC-III 退院概要、臨床メモ、放射線レポート、PubMed 抄録で構成されるデータセットで小さな DeBERTa モデルを事前トレーニングします。
このモデルのパフォーマンスを、機関の EHR (MeDeBERTa) および XGBoost モデルからの臨床テキストで事前にトレーニングされた DeBERTa モデルと比較します。
MIMIC-IV-ED データセットを使用して、救急部門のアウトカムに関する 3 つのベンチマーク タスクのパフォーマンスを評価します。
データを前処理してテキスト形式に変換し、元のデータセットの 4 つのバージョンを生成して、データ処理とデータ インクルージョンを比較します。
結果は、提案されたアプローチが 3 つのタスクのうち 2 つのタスクで代替モデルよりも優れており (p<0.001)、3 番目のタスクでのパフォーマンスに匹敵することを示しています。説明的な列を使用すると、元の列名よりもパフォーマンスが向上します。

要約(オリジナル)

We propose an approach for adapting the DeBERTa model for electronic health record (EHR) tasks using domain adaptation. We pretrain a small DeBERTa model on a dataset consisting of MIMIC-III discharge summaries, clinical notes, radiology reports, and PubMed abstracts. We compare this model’s performance with a DeBERTa model pre-trained on clinical texts from our institutional EHR (MeDeBERTa) and an XGBoost model. We evaluate performance on three benchmark tasks for emergency department outcomes using the MIMIC-IV-ED dataset. We preprocess the data to convert it into text format and generate four versions of the original datasets to compare data processing and data inclusion. The results show that our proposed approach outperforms the alternative models on two of three tasks (p<0.001) and matches performance on the third task, with the use of descriptive columns improving performance over the original column names.

arxiv情報

著者 Christopher McMaster,David FL Liew,Douglas EV Pires
発行日 2023-03-27 05:34:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク