Deep Imputation of Missing Values in Time Series Health Data: A Review with Benchmarking

要約

多変量時系列 (MTS) データの欠損値の補完は、データの品質を確保し、信頼性の高いデータ駆動型の予測モデルを作成するために重要です。
多くの統計的アプローチとは別に、いくつかの最近の研究では、MTS データの欠損値を代入するための最先端の深層学習手法が提案されています。
ただし、これらのディープメソッドの評価は、1 つまたは 2 つのデータセット、低い欠損率、および完全にランダムな欠損値タイプに限定されます。
この調査では、5 つの時系列健康データセットに対する最先端の深い代入手法のベンチマークを行うために 6 つのデータ中心の実験を実行します。
私たちの広範な分析により、5 つのデータセットすべてにおいて、単一の補完手法が他の補完手法よりも優れたパフォーマンスを発揮しないことが明らかになりました。
代入パフォーマンスは、データ型、個々の変数統計、欠損値率、および型によって異なります。
時系列データの欠損値の横断的 (変数全体) および縦方向 (時間全体) の代入を共同で実行する深層学習手法は、従来の代入手法よりも統計的に優れたデータ品質をもたらします。
計算コストは​​かかりますが、高性能コンピューティング リソースが現在利用可能であることを考慮すると、特に医療情報学においてデータ品質とサンプル サイズが非常に重要な場合には、ディープ ラーニング手法が実用的です。
私たちの調査結果は、データ駆動型の予測モデルを最適化するための代入手法のデータ中心の選択の重要性を強調しています。

要約(オリジナル)

The imputation of missing values in multivariate time series (MTS) data is critical in ensuring data quality and producing reliable data-driven predictive models. Apart from many statistical approaches, a few recent studies have proposed state-of-the-art deep learning methods to impute missing values in MTS data. However, the evaluation of these deep methods is limited to one or two data sets, low missing rates, and completely random missing value types. This survey performs six data-centric experiments to benchmark state-of-the-art deep imputation methods on five time series health data sets. Our extensive analysis reveals that no single imputation method outperforms the others on all five data sets. The imputation performance depends on data types, individual variable statistics, missing value rates, and types. Deep learning methods that jointly perform cross-sectional (across variables) and longitudinal (across time) imputations of missing values in time series data yield statistically better data quality than traditional imputation methods. Although computationally expensive, deep learning methods are practical given the current availability of high-performance computing resources, especially when data quality and sample size are highly important in healthcare informatics. Our findings highlight the importance of data-centric selection of imputation methods to optimize data-driven predictive models.

arxiv情報

著者 Maksims Kazijevs,Manar D. Samad
発行日 2023-05-16 16:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク