Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank

要約

最近のゲノムワイド関連研究 (GWAS) では、複雑な形質の遺伝的基盤が明らかになりましたが、非ヨーロッパ系の個人の割合が過小評価されており、遺伝研究における重大なギャップが浮き彫りになっています。
ここでは、マルチオミクスデータを使用して、多様な祖先にわたる疾患予測を改善できるかどうかを評価します。
我々は、英国バイオバンクの多様な祖先に焦点を当てた疾患予測における Group-LASSO INTERaction-NET (glinternet) と事前トレーニング済みなげなわのパフォーマンスを評価します。
モデルは英国白人およびその他の祖先からのデータに基づいてトレーニングされ、8 つの疾患について 96,000 人以上のコホートにわたって検証されました。
トレーニングされた 96 モデルのうち、糖尿病、関節炎、胆石、膀胱炎、喘息、変形性関節症で見つかった ROC-AUC スコア (p 値 < 0.05) に関して統計的に有意な増分予測パフォーマンスを示した 16 モデルを報告します。 ベースラインを上回るインタラクションと事前トレーニングされたモデルの場合、PRS スコアが予測の主な要因でした。 私たちの調査結果は、交互作用項と事前トレーニングの両方が予測精度を向上させることができるが、限定された疾患のセットと中程度の精度の向上に限定されることを示しています。

要約(オリジナル)

Recent genome-wide association studies (GWAS) have uncovered the genetic basis of complex traits, but show an under-representation of non-European descent individuals, underscoring a critical gap in genetic research. Here, we assess whether we can improve disease prediction across diverse ancestries using multiomic data. We evaluate the performance of Group-LASSO INTERaction-NET (glinternet) and pretrained lasso in disease prediction focusing on diverse ancestries in the UK Biobank. Models were trained on data from White British and other ancestries and validated across a cohort of over 96,000 individuals for 8 diseases. Out of 96 models trained, we report 16 with statistically significant incremental predictive performance in terms of ROC-AUC scores (p-value < 0.05), found for diabetes, arthritis, gall stones, cystitis, asthma and osteoarthritis. For the interaction and pretrained models that outperformed the baseline, the PRS score was the primary driver behind prediction. Our findings indicate that both interaction terms and pre-training can enhance prediction accuracy but for a limited set of diseases and moderate improvements in accuracy

arxiv情報

著者 Thomas Le Menestrel,Erin Craig,Robert Tibshirani,Trevor Hastie,Manuel Rivas
発行日 2024-05-07 16:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM, stat.AP, stat.CO パーマリンク