Numerical Data Imputation for Multimodal Data Sets: A Probabilistic Nearest-Neighbor Kernel Density Approach

要約

数値データ補完アルゴリズムは、不完全なデータセットを活用するために欠損値を推定値で置き換えます。
現在の補完方法は、観測されていないグランド トゥルースと補完された値の間の誤差を最小限に抑えることを目指しています。
しかし、この戦略では、多峰性または複雑な分布が存在する場合に不完全な代入につながるアーティファクトが作成される可能性があります。
この問題に取り組むために、$k$NN$\times$KDE アルゴリズムを導入します。これは、最近傍推定 ($k$NN) とガウス カーネルによる密度推定 (KDE) を組み合わせたデータ代入手法です。
私たちの方法を、さまざまなデータ欠損シナリオとさまざまなデータ欠損率を持つ人工データと現実世界のデータを使用した以前のデータ代入方法と比較し、私たちの方法が複雑な元のデータ構造に対処でき、データ代入エラーが低くなり、確率的推定が得られることを示します。
現在の方法よりも可能性が高くなります。
コードをコミュニティ向けにオープンソースでリリースします: https://github.com/DeltaFloflo/knnxkde

要約(オリジナル)

Numerical data imputation algorithms replace missing values by estimates to leverage incomplete data sets. Current imputation methods seek to minimize the error between the unobserved ground truth and the imputed values. But this strategy can create artifacts leading to poor imputation in the presence of multimodal or complex distributions. To tackle this problem, we introduce the $k$NN$\times$KDE algorithm: a data imputation method combining nearest neighbor estimation ($k$NN) and density estimation with Gaussian kernels (KDE). We compare our method with previous data imputation methods using artificial and real-world data with different data missing scenarios and various data missing rates, and show that our method can cope with complex original data structure, yields lower data imputation errors, and provides probabilistic estimates with higher likelihood than current methods. We release the code in open-source for the community: https://github.com/DeltaFloflo/knnxkde

arxiv情報

著者 Floria Lalande,Kenji Doya
発行日 2023-06-29 12:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク