要約
機械学習 (ML) の医療応用は、近年人気が高まっています。
電子医療記録から入手可能なデータが豊富にあるため、集中治療室 (ICU) は ML の自然な生息地です。
合併症の早期発見など、数多くの ICU 予測タスクに対処するモデルが提案されています。
著者は頻繁に最先端のパフォーマンスを報告していますが、その優位性の主張を検証するのは困難です。
データセットとコードは常に公開されているわけではなく、コホート定義、前処理パイプライン、トレーニング設定を再現するのは困難です。
この研究では、研究者が再現可能で比較可能な臨床 ML 実験を定義できるモジュール式フレームワークである Yet Another ICU Benchmark (YAIB) を導入しています。
コホート定義からモデル評価までのエンドツーエンドのソリューションを提供します。
このフレームワークは、ほとんどのオープンアクセス ICU データセット (MIMIC III/IV、eICU、HiRID、AUMCdb) をネイティブにサポートしており、将来の ICU データセットにも簡単に適応できます。
YAIB は、透過的な前処理パイプラインと、複数の ML および深層学習モデル用の拡張可能なトレーニング コードと組み合わせることで、統合モデル開発を可能にします。
当社のベンチマークには、臨床医と協力して開発された 5 つの事前定義された確立された予測タスク (死亡率、急性腎障害、敗血症、腎機能、および入院期間) が付属しています。
さらなるタスクの追加は設計上簡単です。
YAIB を使用して、データセット、コホート定義、および前処理の選択が、多くの場合モデル クラスよりも予測パフォーマンスに大きな影響を与えることを実証し、総合的なベンチマーク ツールとして YAIB が緊急に必要であることを示しています。
私たちは、メソッド開発を加速し、実際の臨床実装を可能にするために、臨床 ML コミュニティに成果を提供しています。
ソフトウェア リポジトリ: https://github.com/rvandewater/YAIB。
要約(オリジナル)
Medical applications of machine learning (ML) have experienced a surge in popularity in recent years. The intensive care unit (ICU) is a natural habitat for ML given the abundance of available data from electronic health records. Models have been proposed to address numerous ICU prediction tasks like the early detection of complications. While authors frequently report state-of-the-art performance, it is challenging to verify claims of superiority. Datasets and code are not always published, and cohort definitions, preprocessing pipelines, and training setups are difficult to reproduce. This work introduces Yet Another ICU Benchmark (YAIB), a modular framework that allows researchers to define reproducible and comparable clinical ML experiments; we offer an end-to-end solution from cohort definition to model evaluation. The framework natively supports most open-access ICU datasets (MIMIC III/IV, eICU, HiRID, AUMCdb) and is easily adaptable to future ICU datasets. Combined with a transparent preprocessing pipeline and extensible training code for multiple ML and deep learning models, YAIB enables unified model development. Our benchmark comes with five predefined established prediction tasks (mortality, acute kidney injury, sepsis, kidney function, and length of stay) developed in collaboration with clinicians. Adding further tasks is straightforward by design. Using YAIB, we demonstrate that the choice of dataset, cohort definition, and preprocessing have a major impact on the prediction performance – often more so than model class – indicating an urgent need for YAIB as a holistic benchmarking tool. We provide our work to the clinical ML community to accelerate method development and enable real-world clinical implementations. Software Repository: https://github.com/rvandewater/YAIB.
arxiv情報
著者 | Robin van de Water,Hendrik Schmidt,Paul Elbers,Patrick Thoral,Bert Arnrich,Patrick Rockenschaub |
発行日 | 2024-03-19 16:39:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google