Correlation visualization under missing values: a comparison between imputation and direct parameter estimation methods



– 相関行列の可視化はデータセット内の変数間の関係を理解する上で重要だが、欠損データにより相関係数の推定が困難となることがある。
– 本論文では、ランダムな欠損パターンと単調な欠損パターンという2つの一般的な欠損パターンについて、相関行列に与える影響を異なる欠損データ補完法によって比較した。
– 研究者や実践家が相関行列を作成し、解析するための実用的な戦略と推奨事項を提供することを目的としている。
– 実験結果から、欠損値に対して補完法が一般的に使用されるが、補完データを用いて相関行列をプロットすると、特徴間の関係に対する推論が大幅に誤ったものになる可能性があることがわかった。
– 実験結果に基づき、直接パラメータ推定法であるDPERを用いて相関行列をプロットすることを推奨している。


Correlation matrix visualization is essential for understanding the relationships between variables in a dataset, but missing data can pose a significant challenge in estimating correlation coefficients. In this paper, we compare the effects of various missing data methods on the correlation plot, focusing on two common missing patterns: random and monotone. We aim to provide practical strategies and recommendations for researchers and practitioners in creating and analyzing the correlation plot. Our experimental results suggest that while imputation is commonly used for missing data, using imputed data for plotting the correlation matrix may lead to a significantly misleading inference of the relation between the features. We recommend using DPER, a direct parameter estimation approach, for plotting the correlation matrix based on its performance in the experiments.


著者 Nhat-Hao Pham,Khanh-Linh Vo,Mai Anh Vu,Thu Nguyen,Michael A. Riegler,Pål Halvorsen,Binh T. Nguyen
発行日 2023-05-10 10:52:30+00:00
カテゴリー: cs.LG, stat.ML パーマリンク