要約
データの欠落は、科学コミュニティにとって持続的な関心の実際的な課題です。
このホワイトペーパーでは、責任ある欠損値の代入のための評価スイートであるShades-of-nullを紹介します。
私たちの作品は2つの方法で斬新です(i)ルービンのクラシックがランダムに欠け、ランダム(MAR)が欠落し、ランダム(MNAR)の欠落を完全に超えて、マルチメカニズムの欠落を含めるために、ランダム(MAR)で欠落していない現実的で社会的に依存する欠落のシナリオをモデル化します(データに異なる欠落パターンが存在する場合)。
品質と帰属の公平性、ならびに、Imputation後のデータでトレーニングおよびテストされたモデルの予測パフォーマンス、公平性、および安定性について。
29,736の実験パイプラインを含む大規模な経験的研究を実施するために、ヌルの色合いを使用し、すべての欠落タイプに最適なパフォーマンスの最良の補完アプローチはありませんが、不足したシナリオ、interの選択、および予測モデルのアーキテクチャの組み合わせに基づいて、予測パフォーマンス、公平性、安定性の間に興味深いトレードオフが生じることがわかります。
研究者が、もっともらしい、社会的に意味のあるシナリオで、幅広いメトリックの欠損価値の補完方法を厳密に評価できるようにするために、私たちは公開されています。
要約(オリジナル)
Data missingness is a practical challenge of sustained interest to the scientific community. In this paper, we present Shades-of-Null, an evaluation suite for responsible missing value imputation. Our work is novel in two ways (i) we model realistic and socially-salient missingness scenarios that go beyond Rubin’s classic Missing Completely at Random (MCAR), Missing At Random (MAR) and Missing Not At Random (MNAR) settings, to include multi-mechanism missingness (when different missingness patterns co-exist in the data) and missingness shift (when the missingness mechanism changes between training and test) (ii) we evaluate imputers holistically, based on imputation quality and imputation fairness, as well as on the predictive performance, fairness and stability of the models that are trained and tested on the data post-imputation. We use Shades-of-Null to conduct a large-scale empirical study involving 29,736 experimental pipelines, and find that while there is no single best-performing imputation approach for all missingness types, interesting trade-offs arise between predictive performance, fairness and stability, based on the combination of missingness scenario, imputer choice, and the architecture of the predictive model. We make Shades-of-Null publicly available, to enable researchers to rigorously evaluate missing value imputation methods on a wide range of metrics in plausible and socially meaningful scenarios.
arxiv情報
著者 | Falaah Arif Khan,Denys Herasymuk,Nazar Protsiv,Julia Stoyanovich |
発行日 | 2025-03-18 17:46:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google