要約
現実世界の表形式データにおけるさまざまなパターンとレートの欠損値は、信頼できるデータ駆動型モデルの開発において重要な課題をもたらします。
既存の欠損価値代入法は、統計的および従来の機械学習を使用し、欠落率が高く、ランダムではない場合に効果がない。
このホワイトペーパーでは、欠損値を再構築するための新しいフレームワークで、特性とサンプル間の注意として表形式データの行と列の注意を探ります。
提案された方法は、対照的な学習フレームワーク内でCutMixデータ増強を使用して、欠損値推定の不確実性を改善します。
訓練された代入モデルのパフォーマンスと一般化は、欠損値を持つセットアサイドテストデータの折り目で評価されます。
提案されたフレームワークは、12個の表のデータセットの多様な選択で、いくつかの欠損値のタイプとレート(10 \%-50 \%)にわたって9つの最先端の帰属方法よりも優れています。
不足している値を持つ実際の電子健康記録を使用して、最先端の統計、機械学習、および深い代入法に対する提案されたフレームワークの優位性を実証する、帰属データの品質を評価します。
このペーパーでは、欠損値の種類とデータ特性に基づいて代入法を推奨するために、表形式のデータセットの不均一性を強調しています。
要約(オリジナル)
Missing values of varying patterns and rates in real-world tabular data pose a significant challenge in developing reliable data-driven models. Existing missing value imputation methods use statistical and traditional machine learning and are ineffective when the missing rate is high and not at random. This paper explores row and column attention in tabular data as between-feature and between-sample attention in a novel framework to reconstruct missing values. The proposed method uses the CutMix data augmentation within a contrastive learning framework to improve the uncertainty of missing value estimation. The performance and generalizability of trained imputation models are evaluated on set-aside test data folds with missing values. The proposed framework outperforms nine state-of-the-art imputation methods across several missing value types and rates (10\%-50\%) on a diverse selection of twelve tabular data sets. We evaluate the quality of imputed data using real-world electronic health records with missing values, demonstrating our proposed framework’s superiority to state-of-the-art statistical, machine learning, and deep imputation methods. This paper highlights the heterogeneity of tabular data sets to recommend imputation methods based on missing value types and data characteristics.
arxiv情報
著者 | Ibna Kowsar,Shourav B. Rabbani,Yina Hou,Manar D. Samad |
発行日 | 2025-02-05 18:29:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google