Impact of Comprehensive Data Preprocessing on Predictive Modelling of COVID-19 Mortality

要約

新型コロナウイルス感染症による死亡率の傾向を分析するには、正確な予測モデルが不可欠です。
この研究では、Our World in Data (OWID) のデータを使用して、新型コロナウイルス感染症による死亡率を予測する 10 個の機械学習モデルに対するカスタム データ前処理パイプラインの影響を評価します。
私たちのパイプラインは、4 つの主要なステップを通じて標準の前処理パイプラインとは異なります。
まず、毎週報告される合計を毎日の更新に変換し、報告の偏りを修正し、より正確な推定値を提供します。
次に、局所的な外れ値の検出と処理を使用して、データの分散を保存し、精度を高めます。
3 番目に、列間の計算依存関係を利用してデータの一貫性を確保します。
最後に、特徴セットを最適化し、モデルのパフォーマンスを向上させるための反復的な特徴選択プロセスが組み込まれています。
結果は、カスタム パイプラインによる大幅な改善を示しています。MLP リグレッサーは、テスト RMSE 66.556 とテスト R 二乗 0.991 を達成し、標準パイプラインの DecisionTree リグレッサー (テスト RMSE 222.858 とテスト R 二乗) を上回りました。
0.817の。
これらの発見は、新型コロナウイルス感染症による死亡率の予測モデリングの精度を高める上で、カスタマイズされた前処理技術の重要性を浮き彫りにしています。
この研究に特有のものではありますが、これらの方法論は多様なデータセットとドメインに関する貴重な洞察を提供し、さまざまなコンテキストにわたる予測パフォーマンスを向上させます。

要約(オリジナル)

Accurate predictive models are crucial for analysing COVID-19 mortality trends. This study evaluates the impact of a custom data preprocessing pipeline on ten machine learning models predicting COVID-19 mortality using data from Our World in Data (OWID). Our pipeline differs from a standard preprocessing pipeline through four key steps. Firstly, it transforms weekly reported totals into daily updates, correcting reporting biases and providing more accurate estimates. Secondly, it uses localised outlier detection and processing to preserve data variance and enhance accuracy. Thirdly, it utilises computational dependencies among columns to ensure data consistency. Finally, it incorporates an iterative feature selection process to optimise the feature set and improve model performance. Results show a significant improvement with the custom pipeline: the MLP Regressor achieved a test RMSE of 66.556 and a test R-squared of 0.991, surpassing the DecisionTree Regressor from the standard pipeline, which had a test RMSE of 222.858 and a test R-squared of 0.817. These findings highlight the importance of tailored preprocessing techniques in enhancing predictive modelling accuracy for COVID-19 mortality. Although specific to this study, these methodologies offer valuable insights into diverse datasets and domains, improving predictive performance across various contexts.

arxiv情報

著者 Sangita Das,Subhrajyoti Maji
発行日 2024-08-15 13:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク