Blockwise Principal Component Analysis for monotone missing data imputation and dimensionality reduction

要約

単調なデータ欠損は、データ分析における一般的な問題です。
ただし、代入と次元削減を組み合わせると、特にデータセットのサイズが増大すると、計算コストが高くなる可能性があります。
この問題に対処するために、次元削減と単調欠損データの代入のためのブロック単位主成分分析代入 (BPI) フレームワークを提案します。
このフレームワークは、データの各単調ブロックの観察された部分に対して主成分分析 (PCA) を実行し、選択した補完手法を使用して、取得した主成分のマージを補完します。
BPI はさまざまな代入手法と連携でき、代入後に次元削減を行う場合と比較して代入時間を大幅に短縮できます。
これにより、単調な欠損データを含む大規模なデータセットに対する実用的かつ効率的なアプローチになります。
私たちの実験では速度の向上が実証されています。
さらに、私たちの実験では、欠損データに MICE 代入を直接適用すると収束しない可能性があるが、データに MICE を使用して BPI を適用すると収束につながる可能性があることも示しています。

要約(オリジナル)

Monotone missing data is a common problem in data analysis. However, imputation combined with dimensionality reduction can be computationally expensive, especially with the increasing size of datasets. To address this issue, we propose a Blockwise principal component analysis Imputation (BPI) framework for dimensionality reduction and imputation of monotone missing data. The framework conducts Principal Component Analysis (PCA) on the observed part of each monotone block of the data and then imputes on merging the obtained principal components using a chosen imputation technique. BPI can work with various imputation techniques and can significantly reduce imputation time compared to conducting dimensionality reduction after imputation. This makes it a practical and efficient approach for large datasets with monotone missing data. Our experiments validate the improvement in speed. In addition, our experiments also show that while applying MICE imputation directly on missing data may not yield convergence, applying BPI with MICE for the data may lead to convergence.

arxiv情報

著者 Tu T. Do,Mai Anh Vu,Tuan L. Vo,Hoang Thien Ly,Thu Nguyen,Steven A. Hicks,Michael A. Riegler,Pål Halvorsen,Binh T. Nguyen
発行日 2024-01-10 15:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク