Interpreting artificial neural networks to detect genome-wide association signals for complex traits

要約

複雑な疾患の遺伝的構造を研究することは、遺伝的要因と環境的要因が高度に多遺伝子的で相互作用するため、困難です。
ゲノムワイド関連研究 (GWAS) では、複数の複雑な表現型の数千のバリアントが同定されていますが、従来の統計的アプローチは、直線性やエピスタシス モデルの欠如などの単純化された仮定によって制限される可能性があります。
この研究では、シミュレートされた遺伝子型/表現型データセットと実際の遺伝子型/表現型データセットの両方を使用して、複雑な形質を予測するための人工ニューラル ネットワークをトレーニングしました。
さまざまな事後解釈可能性手法を介して特徴重要度スコアを抽出し、標的表現型の潜在的に関連する遺伝子座 (PAL) を特定しました。
さまざまなパラメーターを使用して実行したシミュレーションにより、厳密な選択基準を使用して関連遺伝子座を高精度で検出できることが実証されましたが、従来の GWAS と同様に、連鎖不均衡に起因する正確な変異体を詳細にマッピングするには下流解析が必要です。
エストニアのバイオバンクの統合失調症コホートに私たちのアプローチを適用することで、この高度に多遺伝子性で遺伝性の疾患に関連する複数の PAL を検出することができました。
また、遺伝子領域で PAL を使用したエンリッチメント分析も実行しました。これにより、脳の形態に関連する用語が主に特定されました。
モデルの最適化と信頼度の尺度がさらに改善されることで、人工ニューラル ネットワークは複雑な疾患に関連するゲノム遺伝子座の同定を強化し、GWAS に対するより包括的なアプローチを提供し、その後の機能研究の初期スクリーニング ツールとして機能します。
キーワード: 深層学習、解釈可能性、ゲノムワイド関連研究、複合疾患

要約(オリジナル)

Investigating the genetic architecture of complex diseases is challenging due to the highly polygenic and interactive landscape of genetic and environmental factors. Although genome-wide association studies (GWAS) have identified thousands of variants for multiple complex phenotypes, conventional statistical approaches can be limited by simplified assumptions such as linearity and lack of epistasis models. In this work, we trained artificial neural networks for predicting complex traits using both simulated and real genotype/phenotype datasets. We extracted feature importance scores via different post hoc interpretability methods to identify potentially associated loci (PAL) for the target phenotype. Simulations we performed with various parameters demonstrated that associated loci can be detected with good precision using strict selection criteria, but downstream analyses are required for fine-mapping the exact variants due to linkage disequilibrium, similarly to conventional GWAS. By applying our approach to the schizophrenia cohort in the Estonian Biobank, we were able to detect multiple PAL related to this highly polygenic and heritable disorder. We also performed enrichment analyses with PAL in genic regions, which predominantly identified terms associated with brain morphology. With further improvements in model optimization and confidence measures, artificial neural networks can enhance the identification of genomic loci associated with complex diseases, providing a more comprehensive approach for GWAS and serving as initial screening tools for subsequent functional studies. Keywords: Deep learning, interpretability, genome-wide association studies, complex diseases

arxiv情報

著者 Burak Yelmen,Maris Alver,Estonian Biobank Research Team,Flora Jay,Lili Milani
発行日 2024-07-26 15:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN, q-bio.QM パーマリンク