Handling Overlapping Asymmetric Datasets — A Twice Penalized P-Spline Approach


重複する非対称データセットはデータ サイエンスでは一般的であり、それらを予測分析にどのように組み込むことができるかという問題が生じます。
ノンパラメトリック モデル、特に一般化加算モデルによる柔軟な平滑化手法を動機として、2 つのペナルティを課した P-スプライン近似法をモデル化して、まず小さなコホートの過剰/過小適合を防止し、次に大きなコホートを考慮します。
この 2 番目のペナルティは、より小さいコホートとより大きいコホートの両方に存在する共変量の限界値の不一致によって作成されます。
連続二値応答を考慮するためのデータ シミュレーション、パラメーター調整、モデルの適応を通じて、2 回ペナルティを課したアプローチが、線形 B スプラインと 1 回ペナルティを課した P-スプライン近似に対する適合性が向上していることがわかりました。
非アルコール性脂肪性肝炎を発症する人のリスクに関する実際のデータセットに適用すると、モデルの適合パフォーマンスが 65% 以上向上していることがわかります。
この分野での将来の作業領域には、次元削減を必要としないように手法を適応させることや、パラメトリック モデリング手法を考慮することが含まれます。


Overlapping asymmetric datasets are common in data science and pose questions of how they can be incorporated together into a predictive analysis. In healthcare datasets there is often a small amount of information that is available for a larger number of patients such as an electronic health record, however a small number of patients may have had extensive further testing. Common solutions such as missing imputation can often be unwise if the smaller cohort is significantly different in scale to the larger sample, therefore the aim of this research is to develop a new method which can model the smaller cohort against a particular response, whilst considering the larger cohort also. Motivated by non-parametric models, and specifically flexible smoothing techniques via generalized additive models, we model a twice penalized P-Spline approximation method to firstly prevent over/under-fitting of the smaller cohort and secondly to consider the larger cohort. This second penalty is created through discrepancies in the marginal value of covariates that exist in both the smaller and larger cohorts. Through data simulations, parameter tunings and model adaptations to consider a continuous and binary response, we find our twice penalized approach offers an enhanced fit over a linear B-Spline and once penalized P-Spline approximation. Applying to a real-life dataset relating to a person’s risk of developing Non-Alcoholic Steatohepatitis, we see an improved model fit performance of over 65%. Areas for future work within this space include adapting our method to not require dimensionality reduction and also consider parametric modelling methods. However, to our knowledge this is the first work to propose additional marginal penalties in a flexible regression of which we can report a vastly improved model fit that is able to consider asymmetric datasets, without the need for missing data imputation.


著者 Matthew McTeer,Robin Henderson,Quentin M Anstee,Paolo Missier
発行日 2023-11-17 12:41:07+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク