Imputation of missing values in multi-view data



– マルチビューデータとは、1つのオブジェクトが複数の機能セット(ビューと呼ばれる)によって記述されるデータのことである。
– マルチビューデータに欠損値が生じると、ビュー内のすべての機能が同時に欠損することがよくある。
– これにより、非常に多くの欠損データが生じ、高次元性と組み合わさると、条件付き補完方法の適用が計算上不可能になる。
– 我々は、多視点学習のための既存のスタックされたペナルティロジスティック回帰(StaPLR)アルゴリズムに基づく新しい補完方法を提案する。
– このアルゴリズムは、計算上の課題に対応するために、次元削減された空間で補完を行う。
– シミュレーションされたデータセットで、新しい補完方法のパフォーマンスをいくつかの既存の補完アルゴリズムと比較する。
– 結果は、新しい補完方法が、より低い計算コストで競争力のある結果をもたらし、missForestやpredictive mean matchingなどの高度な補完アルゴリズムを使用できるようにするというものである。


Data for which a set of objects is described by multiple distinct feature sets (called views) is known as multi-view data. When missing values occur in multi-view data, all features in a view are likely to be missing simultaneously. This leads to very large quantities of missing data which, especially when combined with high-dimensionality, makes the application of conditional imputation methods computationally infeasible. We introduce a new imputation method based on the existing stacked penalized logistic regression (StaPLR) algorithm for multi-view learning. It performs imputation in a dimension-reduced space to address computational challenges inherent to the multi-view context. We compare the performance of the new imputation method with several existing imputation algorithms in simulated data sets. The results show that the new imputation method leads to competitive results at a much lower computational cost, and makes the use of advanced imputation algorithms such as missForest and predictive mean matching possible in settings where they would otherwise be computationally infeasible.


著者 Wouter van Loon,Marjolein Fokkema,Mark de Rooij
発行日 2023-04-25 13:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク