Handling Overlapping Asymmetric Datasets — A Twice Penalized P-Spline Approach

要約

重複する非対称データセットはデータ サイエンスでは一般的であり、それらを予測分析にどのように組み込むことができるかという問題が生じます。
医療データセットには、電子医療記録など、多数の患者が利用できる少量の情報が含まれていることがよくありますが、少数の患者には広範なさらなる検査が行われている可能性があります。
小さなコホートのスケールが大きなサンプルと大きく異なる場合、代入の欠落などの一般的な解決策は賢明ではないことがよくあります。したがって、この研究の目的は、特定の応答に対して小さなコホートをモデル化できる新しい方法を開発することです。
より大きなコホートも。
ノンパラメトリック モデル、特に一般化加算モデルによる柔軟な平滑化手法を動機として、2 つのペナルティを課した P-スプライン近似法をモデル化して、まず小さなコホートの過剰/過小適合を防止し、次に大きなコホートを考慮します。
この 2 番目のペナルティは、より小さいコホートとより大きいコホートの両方に存在する共変量の限界値の不一致によって作成されます。
連続二値応答を考慮するためのデータ シミュレーション、パラメーター調整、モデルの適応を通じて、2 回ペナルティを課したアプローチが、線形 B スプラインと 1 回ペナルティを課した P-スプライン近似に対する適合性が向上していることがわかりました。
非アルコール性脂肪性肝炎を発症する人のリスクに関する実際のデータセットに適用すると、モデルの適合パフォーマンスが 65% 以上向上していることがわかります。
この分野での将来の作業領域には、次元削減を必要としないように手法を適応させることや、パラメトリック モデリング手法を考慮することが含まれます。
しかし、私たちの知る限り、これは柔軟な回帰で追加の限界ペナルティを提案した最初の研究であり、欠損データ補完を必要とせずに非対称データセットを考慮できる大幅に改善されたモデル適合を報告できます。

要約(オリジナル)

Overlapping asymmetric datasets are common in data science and pose questions of how they can be incorporated together into a predictive analysis. In healthcare datasets there is often a small amount of information that is available for a larger number of patients such as an electronic health record, however a small number of patients may have had extensive further testing. Common solutions such as missing imputation can often be unwise if the smaller cohort is significantly different in scale to the larger sample, therefore the aim of this research is to develop a new method which can model the smaller cohort against a particular response, whilst considering the larger cohort also. Motivated by non-parametric models, and specifically flexible smoothing techniques via generalized additive models, we model a twice penalized P-Spline approximation method to firstly prevent over/under-fitting of the smaller cohort and secondly to consider the larger cohort. This second penalty is created through discrepancies in the marginal value of covariates that exist in both the smaller and larger cohorts. Through data simulations, parameter tunings and model adaptations to consider a continuous and binary response, we find our twice penalized approach offers an enhanced fit over a linear B-Spline and once penalized P-Spline approximation. Applying to a real-life dataset relating to a person’s risk of developing Non-Alcoholic Steatohepatitis, we see an improved model fit performance of over 65%. Areas for future work within this space include adapting our method to not require dimensionality reduction and also consider parametric modelling methods. However, to our knowledge this is the first work to propose additional marginal penalties in a flexible regression of which we can report a vastly improved model fit that is able to consider asymmetric datasets, without the need for missing data imputation.

arxiv情報

著者 Matthew McTeer,Robin Henderson,Quentin M Anstee,Paolo Missier
発行日 2023-11-17 12:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク