Imputation of missing values in multi-view data

要約

オブジェクトのセットが複数の個別の特徴セット (ビューと呼ばれる) によって記述されるデータは、マルチビュー データとして知られています。
マルチビュー データで欠損値が発生すると、ビュー内のすべてのフィーチャが同時に欠損する可能性があります。
これにより、非常に大量の欠損データが発生し、特に高次元性と組み合わせると、条件付き代入法の適用が計算上実行不可能になります。
マルチビュー学習のための既存のスタックペナルティ付きロジスティック回帰 (StaPLR) アルゴリズムに基づく新しい代入手法を導入します。
マルチビュー コンテキストに固有の計算上の課題に対処するために、次元削減された空間で代入を実行します。
シミュレートされたデータセットで、新しい代入手法のパフォーマンスをいくつかの既存の代入アルゴリズムと比較します。
この結果は、新しい代入手法により、はるかに低い計算コストで競争力のある結果が得られ、missForest や予測平均マッチングなどの高度な代入アルゴリズムを、他の方法では計算的に実行不可能な設定で使用できるようにすることを示しています。

要約(オリジナル)

Data for which a set of objects is described by multiple distinct feature sets (called views) is known as multi-view data. When missing values occur in multi-view data, all features in a view are likely to be missing simultaneously. This leads to very large quantities of missing data which, especially when combined with high-dimensionality, makes the application of conditional imputation methods computationally infeasible. We introduce a new imputation method based on the existing stacked penalized logistic regression (StaPLR) algorithm for multi-view learning. It performs imputation in a dimension-reduced space to address computational challenges inherent to the multi-view context. We compare the performance of the new imputation method with several existing imputation algorithms in simulated data sets. The results show that the new imputation method leads to competitive results at a much lower computational cost, and makes the use of advanced imputation algorithms such as missForest and predictive mean matching possible in settings where they would otherwise be computationally infeasible.

arxiv情報

著者 Wouter van Loon,Marjolein Fokkema,Frank de Vos,Marisa Koini,Reinhold Schmidt,Mark de Rooij
発行日 2024-02-29 16:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク