Sharing pattern submodels for prediction with missing values

要約

機械学習の多くのアプリケーションでは欠損値が避けられず、トレーニング中とテスト時の両方で課題が生じます。
反復パターンに変数が欠落している場合、別のパターン サブモデルをフィッティングすることが解決策として提案されています。
ただし、モデルを個別にフィッティングしても、利用可能なすべてのデータが効率的に利用されるわけではありません。
逆に、単一の共有モデルを完全なデータセットに当てはめるのは代入に依存するため、欠損が観測されていない要因に依存する場合、偏った結果が生じることがよくあります。
我々は、共有パターン サブモデルと呼ばれる代替アプローチを提案します。このアプローチでは、i) テスト時の欠損値に対してロバストな予測が行われ、ii) パターン サブモデルの予測力が維持または向上し、iii) 短い説明があり、解釈可能性が向上します。
パラメーターの共有は、一貫性のある推定につながることを証明する、スパース性を誘発する正則化によって強制されます。
最後に、欠損と目標結果の両方が観測されていない変数に依存する場合でも、共有モデルが最適である条件を示します。
合成データセットと現実世界のデータセットに対する分類と回帰実験は、私たちのモデルがパターンの特殊化と情報共有の間で有利なトレードオフを達成していることを示しています。

要約(オリジナル)

Missing values are unavoidable in many applications of machine learning and present challenges both during training and at test time. When variables are missing in recurring patterns, fitting separate pattern submodels have been proposed as a solution. However, fitting models independently does not make efficient use of all available data. Conversely, fitting a single shared model to the full data set relies on imputation which often leads to biased results when missingness depends on unobserved factors. We propose an alternative approach, called sharing pattern submodels, which i) makes predictions that are robust to missing values at test time, ii) maintains or improves the predictive power of pattern submodels, and iii) has a short description, enabling improved interpretability. Parameter sharing is enforced through sparsity-inducing regularization which we prove leads to consistent estimation. Finally, we give conditions for when a sharing model is optimal, even when both missingness and the target outcome depend on unobserved variables. Classification and regression experiments on synthetic and real-world data sets demonstrate that our models achieve a favorable tradeoff between pattern specialization and information sharing.

arxiv情報

著者 Lena Stempfle,Ashkan Panahi,Fredrik D. Johansson
発行日 2023-11-24 13:50:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク