A Sparse Graph-Structured Lasso Mixed Model for Genetic Association with Confounding Correction

要約

線形混合モデル (LMM) は、集団の層別化、家族構造、および不可解な関連性によって引き起こされる誤った関連付けを修正する際に競争力のあるパフォーマンスを示していますが、遺伝子型および表現型データの複雑な構造に関しては、さらに多くの課題に対処する必要があります。
たとえば、遺伝学者は、表現型の一部のクラスターが他のクラスターよりも共発現していることを発見しました。
したがって、異種データセットでこのような関連性情報を利用できる共同分析は、遺伝子モデリングにとって重要です。
交絡補正を使用して、特性からの関連性情報をデータセットに組み込むことができる、疎なグラフ構造の線形混合モデル (sGLMM) を提案しました。
私たちの方法は、これらの表現型の関連性を考慮しながら、多数の表現型の遺伝的関連を一緒に明らかにすることができます。
広範なシミュレーション実験を通じて、提案されたモデルが他の既存のアプローチよりも優れており、人口構造と共有信号の両方から相関をモデル化できることを示しています。
さらに、植物と人間の 2 つの異なる種の現実世界のゲノム データセットで sGLMM の有効性を検証します。
シロイヌナズナのデータでは、sGLMM は 63.4% の形質で他のすべてのベースライン モデルよりも優れた動作をします。
また、モデルによって発見されたヒト アルツハイマー病の潜在的な原因となる遺伝的変異についても議論し、最も重要な遺伝子座のいくつかを正当化します。

要約(オリジナル)

While linear mixed model (LMM) has shown a competitive performance in correcting spurious associations raised by population stratification, family structures, and cryptic relatedness, more challenges are still to be addressed regarding the complex structure of genotypic and phenotypic data. For example, geneticists have discovered that some clusters of phenotypes are more co-expressed than others. Hence, a joint analysis that can utilize such relatedness information in a heterogeneous data set is crucial for genetic modeling. We proposed the sparse graph-structured linear mixed model (sGLMM) that can incorporate the relatedness information from traits in a dataset with confounding correction. Our method is capable of uncovering the genetic associations of a large number of phenotypes together while considering the relatedness of these phenotypes. Through extensive simulation experiments, we show that the proposed model outperforms other existing approaches and can model correlation from both population structure and shared signals. Further, we validate the effectiveness of sGLMM in the real-world genomic dataset on two different species from plants and humans. In Arabidopsis thaliana data, sGLMM behaves better than all other baseline models for 63.4% traits. We also discuss the potential causal genetic variation of Human Alzheimer’s disease discovered by our model and justify some of the most important genetic loci.

arxiv情報

著者 Wenting Ye,Xiang Liu,Tianwei Yue,Wenping Wang
発行日 2023-02-14 16:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN, stat.ML パーマリンク