要約
多くの重要なデータセットには、1つ以上の特徴値が欠損しているサンプルが含まれている。このような欠損データの存在下で機械学習モデルの解釈可能性を維持することは困難である。欠損値を単一または多重に代入すると、特徴からラベルへのモデルのマッピングが複雑になる。一方、欠測を表す指標変数の推論は、潜在的に多数の追加項を導入し、スパース性を犠牲にする。我々は、l0正則化によりスパース性を維持しながら、欠測指標とその相互作用項を組み込んだ、スパースで一般化された加法モデリングのアプローチであるM-GAMにより、これらの問題を解決する。我々は、M-GAMが、インピュテーションや指標変数の素朴な取り込みと比較して、スパース性を大幅に改善しながら、先行手法と同等以上の精度を提供することを示す。
要約(オリジナル)
Many important datasets contain samples that are missing one or more feature values. Maintaining the interpretability of machine learning models in the presence of such missing data is challenging. Singly or multiply imputing missing values complicates the model’s mapping from features to labels. On the other hand, reasoning on indicator variables that represent missingness introduces a potentially large number of additional terms, sacrificing sparsity. We solve these problems with M-GAM, a sparse, generalized, additive modeling approach that incorporates missingness indicators and their interaction terms while maintaining sparsity through l0 regularization. We show that M-GAM provides similar or superior accuracy to prior methods while significantly improving sparsity relative to either imputation or naive inclusion of indicator variables.
arxiv情報
著者 | Hayden McTavish,Jon Donnelly,Margo Seltzer,Cynthia Rudin |
発行日 | 2024-12-03 18:21:20+00:00 |
arxivサイト | arxiv_id(pdf) |