Development of a Neural Network-based Method for Improved Imputation of Missing Values in Time Series Data by Repurposing DataWig

要約

時系列データは、一定の時間間隔で収集された観測値です。
時系列データの分析を成功させると、研究、ビジネス、ガバナンスにおける意思決定に重要な傾向、周期性、不規則性などのパターンが捕捉されます。
ただし、時系列データの欠損値は頻繁に発生し、正常な分析に障害となるため、代入と呼ばれるプロセスで、欠損値を代替値で埋める必要があります。
時系列データのロバストな代入のためにさまざまなアプローチが試みられていますが、最も先進的な方法でも、スケーラビリティの制限、異種データ型を処理する能力の不足、データ欠損メカニズムの強力な仮定が必要なため柔軟性の欠如などの課題に依然として直面しています。
さらに、これらの方法の代入精度にはまだ改善の余地があります。
この研究では、DataWig を修正して tsDataWig (時系列 DataWig) を開発しました。DataWig は、大規模なデータセットと異種データ型を処理する能力を備えたニューラル ネットワーク ベースの手法ですが、非時系列データの代入用に設計されています。
オリジナルの DataWig とは異なり、tsDataWig は時間変数の値を直接処理し、複雑な時系列データセットの欠損値を代入できます。
1 つのシミュレートされたデータセットと 3 つの異なる複雑な現実世界の時系列データセットを使用して、tsDataWig が元の DataWig および時系列データ代入の現在の最先端の方法よりも優れており、強い仮定を必要としないため潜在的に幅広い用途があることを実証しました。
データ欠落メカニズム。
この研究は、数百万のサンプル、高次元の変数、異種データ型が含まれることが多い、困難な時系列データセットに欠損値を確実に代入するための貴重なソリューションを提供します。

要約(オリジナル)

Time series data are observations collected over time intervals. Successful analysis of time series data captures patterns such as trends, cyclicity and irregularity, which are crucial for decision making in research, business, and governance. However, missing values in time series data occur often and present obstacles to successful analysis, thus they need to be filled with alternative values, a process called imputation. Although various approaches have been attempted for robust imputation of time series data, even the most advanced methods still face challenges including limited scalability, poor capacity to handle heterogeneous data types and inflexibility due to requiring strong assumptions of data missing mechanisms. Moreover, the imputation accuracy of these methods still has room for improvement. In this study, I developed tsDataWig (time-series DataWig) by modifying DataWig, a neural network-based method that possesses the capacity to process large datasets and heterogeneous data types but was designed for non-time series data imputation. Unlike the original DataWig, tsDataWig can directly handle values of time variables and impute missing values in complex time series datasets. Using one simulated and three different complex real-world time series datasets, I demonstrated that tsDataWig outperforms the original DataWig and the current state-of-the-art methods for time series data imputation and potentially has broad application due to not requiring strong assumptions of data missing mechanisms. This study provides a valuable solution for robustly imputing missing values in challenging time series datasets, which often contain millions of samples, high dimensional variables, and heterogeneous data types.

arxiv情報

著者 Daniel Zhang
発行日 2023-08-18 15:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク