DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework

要約

現実世界の表形式データにおけるさまざまなパターンとレートの欠損値は、信頼できるデータ駆動型モデルの開発において重要な課題をもたらします。
欠損値の代入のために最も一般的に使用される統計学習および機械学習方法は、欠落率が高く、ランダムではない場合、効果がない場合があります。
このホワイトペーパーでは、欠損値を再構築するための新しいフレームワークで、特性とサンプル間の注意として表形式データの行と列の注意を探ります。
提案された方法は、対照的な学習フレームワーク内でカットミックスデータ増強を使用して、欠損値推定の不確実性を改善します。
訓練された代入モデルのパフォーマンスと一般化は、欠損値を持つセットアジドテストデータの折り目で評価されます。
提案されたフレームワークは、12の多様な表形式データセットを使用して、11の最先端の統計、機械学習、および深い代入法と比較されます。
提案された方法の平均パフォーマンスランクは、特に欠損値がランダムでない場合、10%から90%、3つの欠損値タイプの間のレートを欠く最先端の方法に対する優位性を示しています。
提案された方法を使用した帰属データの品質は、実際の電子健康記録を使用して、下流の患者分類タスクで比較されます。
このペーパーでは、欠損値の種類とデータ特性に基づいて代入法を推奨するために、表形式のデータセットの不均一性を強調しています。

要約(オリジナル)

Missing values of varying patterns and rates in real-world tabular data pose a significant challenge in developing reliable data-driven models. The most commonly used statistical and machine learning methods for missing value imputation may be ineffective when the missing rate is high and not random. This paper explores row and column attention in tabular data as between-feature and between-sample attention in a novel framework to reconstruct missing values. The proposed method uses CutMix data augmentation within a contrastive learning framework to improve the uncertainty of missing value estimation. The performance and generalizability of trained imputation models are evaluated in set-aside test data folds with missing values. The proposed framework is compared with 11 state-of-the-art statistical, machine learning, and deep imputation methods using 12 diverse tabular data sets. The average performance rank of our proposed method demonstrates its superiority over the state-of-the-art methods for missing rates between 10% and 90% and three missing value types, especially when the missing values are not random. The quality of the imputed data using our proposed method is compared in a downstream patient classification task using real-world electronic health records. This paper highlights the heterogeneity of tabular data sets to recommend imputation methods based on missing value types and data characteristics.

arxiv情報

著者 Ibna Kowsar,Shourav B. Rabbani,Yina Hou,Manar D. Samad
発行日 2025-03-25 17:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク