Blockwise Principal Component Analysis for monotone missing data imputation and dimensionality reduction

要約

タイトル: Blockwise Principal Component Analysisによる単調欠損データの代入と次元削減

要約:単調欠損データは、データ分析における一般的な問題です。しかし、次元削減と組み合わせた代入は、データセットの大きさの増加に伴い、計算量が膨大になる可能性があります。この問題に対処するために、私たちはBlockwise principal component analysis Imputation(BPI)フレームワークを提案しています。このフレームワークは、データの各単調ブロックの観測部分で主成分分析(PCA)を実行し、選択した代入技術を用いて得られた主成分をマージすることで代入を行います。BPIは、さまざまな代入技術で動作し、代入後に次元削減を実行するよりも代入時間を大幅に短縮できるため、単調欠損データを持つ大きなデータセットに対して実用的で効率的なアプローチとなります。私たちの実験はこのフレームワークの高速化を検証しました。さらに、私たちの実験は、MICE代入を直接欠損データに適用すると収束が得られないことを示していますが、BPIとMICEをデータに適用することで収束することを示しています。

要点:
– 単調欠損データは、データ分析における一般的な問題である。
– 欠損データの代入に加えて次元削減を行うと、計算量が増大する可能性がある。
– BPIフレームワークは、PCAと代入技術を用いて単調欠損データの次元削減と代入を行うことができる。
– BPIは、代入技術に関係なく動作し、次元削減を代入後に行うよりも大幅に速く処理することができる。
– BPIは、単調欠損データを持つ大きなデータセットに対して実用的で効率的なアプローチとなる。
– BPIをMICE代入と組み合わせることで収束が得られることがある。

要約(オリジナル)

Monotone missing data is a common problem in data analysis. However, imputation combined with dimensionality reduction can be computationally expensive, especially with the increasing size of datasets. To address this issue, we propose a Blockwise principal component analysis Imputation (BPI) framework for dimensionality reduction and imputation of monotone missing data. The framework conducts Principal Component Analysis (PCA) on the observed part of each monotone block of the data and then imputes on merging the obtained principal components using a chosen imputation technique. BPI can work with various imputation techniques and can significantly reduce imputation time compared to conducting dimensionality reduction after imputation. This makes it a practical and efficient approach for large datasets with monotone missing data. Our experiments validate the improvement in speed. In addition, our experiments also show that while applying MICE imputation directly on missing data may not yield convergence, applying BPI with MICE for the data may lead to convergence.

arxiv情報

著者 Tu T. Do,Mai Anh Vu,Hoang Thien Ly,Thu Nguyen,Steven A. Hicks,Michael A. Riegler,Pål Halvorsen,Binh T. Nguyen
発行日 2023-05-10 10:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク