Merging versus Ensembling in Multi-Study Prediction: Theoretical Insight from Random Effects

要約

複数の研究を使用して予測変数をトレーニングする場合の重要な決定点は、研究を結合する必要があるのか​​、それとも個別に処理する必要があるのか​​ということです。
データセット間の予測子と結果の関係に潜在的な異質性が存在する場合の 2 つのマルチスタディ予測アプローチを比較します。1) すべてのデータセットをマージして単一の学習者をトレーニングする方法、および 2) マルチスタディのアンサンブル。
各データセットと、各学習者から得られた予測を組み合わせます。
リッジ回帰については、予測子と結果の関係が研究全体で比較的均一である場合、マージの方がアンサンブルよりも予測誤差が低いことを分析的に示し、シミュレーションによって確認しました。
ただし、研究間の異質性が増加するにつれて、アンサンブルがマージよりも優れたパフォーマンスを発揮する移行点が存在します。
さまざまなシナリオにおける転移点の分析式を提供し、漸近特性を研究し、いつ研究をメタゲノミクスの応用と組み合わせる必要があるかを決定するために転移点理論をどのように使用できるかを示します。

要約(オリジナル)

A critical decision point when training predictors using multiple studies is whether studies should be combined or treated separately. We compare two multi-study prediction approaches in the presence of potential heterogeneity in predictor-outcome relationships across datasets: 1) merging all of the datasets and training a single learner, and 2) multi-study ensembling, which involves training a separate learner on each dataset and combining the predictions resulting from each learner. For ridge regression, we show analytically and confirm via simulation that merging yields lower prediction error than ensembling when the predictor-outcome relationships are relatively homogeneous across studies. However, as cross-study heterogeneity increases, there exists a transition point beyond which ensembling outperforms merging. We provide analytic expressions for the transition point in various scenarios, study asymptotic properties, and illustrate how transition point theory can be used for deciding when studies should be combined with an application from metagenomics.

arxiv情報

著者 Zoe Guan,Giovanni Parmigiani,Prasad Patil
発行日 2024-12-12 18:47:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク