Mimic-IV-ICD: A new benchmark for eXtreme MultiLabel Classification

要約

タイトル「Mimic-IV-ICD: eXtreme MultiLabel Classificationのための新しいベンチマーク」
– 大量の臨床ノートには診断や処置のためのICDコードが割り当てられている。
– 自動的なICDコーディングのために、予測機械学習モデルが構築されているが、大規模な公共EHRデータに基づく自動的なICDコーディングモデルに対する広く受け入れられたベンチマークが不足している。
– 本論文は、MIMIC-IVから派生した大規模なEHRデータセットを使用したICD-10コーディングのための公共のベンチマークスイートを提案している。
– ICDコーディング予測タスクのためにいくつかの人気のある方法を実装し比較し、データの前処理の標準化と包括的なICDコーディングベンチマークデータセットの確立を行うことで、再現性とモデル比較を促進し、将来の研究で自動的なICDコーディングを使用するための進歩を加速する。
– さらに、MIMIC-IVデータを使用したICD-9ベンチマークを作成し、MIMIC-IIIより多くのデータポイントとICDコードの数を提供している。
– オープンソースのコードは、MIMIC-IVアクセスを持つ人々にとって、データ処理手順、ベンチマーク作成、および実験の複製を簡単に提供し、ICDコーディングモデルの効率的な開発に対する洞察、ガイダンス、およびプロトコルを提供している。

要約(オリジナル)

Clinical notes are assigned ICD codes – sets of codes for diagnoses and procedures. In the recent years, predictive machine learning models have been built for automatic ICD coding. However, there is a lack of widely accepted benchmarks for automated ICD coding models based on large-scale public EHR data. This paper proposes a public benchmark suite for ICD-10 coding using a large EHR dataset derived from MIMIC-IV, the most recent public EHR dataset. We implement and compare several popular methods for ICD coding prediction tasks to standardize data preprocessing and establish a comprehensive ICD coding benchmark dataset. This approach fosters reproducibility and model comparison, accelerating progress toward employing automated ICD coding in future studies. Furthermore, we create a new ICD-9 benchmark using MIMIC-IV data, providing more data points and a higher number of ICD codes than MIMIC-III. Our open-source code offers easy access to data processing steps, benchmark creation, and experiment replication for those with MIMIC-IV access, providing insights, guidance, and protocols to efficiently develop ICD coding models.

arxiv情報

著者 Thanh-Tung Nguyen,Viktor Schlegel,Abhinav Kashyap,Stefan Winkler,Shao-Syuan Huang,Jie-Jyun Liu,Chih-Jen Lin
発行日 2023-04-27 07:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI パーマリンク