A Kernel-Based Neural Network Test for High-dimensional Sequencing Data Analysis

要約

最近の人工知能 (AI) 技術の発展、特にディープ ニューラル ネットワーク (DNN) 技術の進歩は、多くの分野に革命をもたらしました。
DNN は現代の AI テクノロジーで中心的な役割を果たしていますが、高次元シーケンス データによってもたらされる課題 (オーバーフィッティングなど) のため、シーケンス データ分析ではほとんど使用されていません。
さらに、ニューラル ネットワークの複雑さとその未知の限界分布により、遺伝的関連性分析のためのニューラル ネットワーク上で関連性テストを構築することは依然として大きな課題です。
これらの課題に対処し、高次元シーケンス データ解析で AI を使用する際の重要なギャップを埋めるために、シーケンス データの複雑な関連性解析のための新しいカーネルベースのニューラル ネットワーク (KNN) テストを導入します。
このテストは、以前に開発した KNN フレームワークに基づいて構築されており、ランダム効果を使用して高次元遺伝データの全体的な効果をモデル化し、カーネルベースのニューラル ネットワーク構造を採用して複雑な遺伝子型と表現型の関係をモデル化します。
次に、KNN に基づいて、非線形および非相加効果 (相互作用効果など) を考慮して、高次元の遺伝データと対象の疾患表現型との共同関連を評価するために Wald 型検定が導入されます。
シミュレーションを通じて、特に非線形効果や相互作用効果が存在する場合、私たちの提案した方法がシーケンスカーネルアソシエーションテスト(SKAT)と比較してより高い検出力を達成することを実証しました。
最後に、アルツハイマー病神経画像イニシアチブ (ADNI) 研究の全ゲノム配列決定 (WGS) データセットにこの方法を適用し、海馬の体積の経時変化に関連する新しい遺伝子を調査します。

要約(オリジナル)

The recent development of artificial intelligence (AI) technology, especially the advance of deep neural network (DNN) technology, has revolutionized many fields. While DNN plays a central role in modern AI technology, it has been rarely used in sequencing data analysis due to challenges brought by high-dimensional sequencing data (e.g., overfitting). Moreover, due to the complexity of neural networks and their unknown limiting distributions, building association tests on neural networks for genetic association analysis remains a great challenge. To address these challenges and fill the important gap of using AI in high-dimensional sequencing data analysis, we introduce a new kernel-based neural network (KNN) test for complex association analysis of sequencing data. The test is built on our previously developed KNN framework, which uses random effects to model the overall effects of high-dimensional genetic data and adopts kernel-based neural network structures to model complex genotype-phenotype relationships. Based on KNN, a Wald-type test is then introduced to evaluate the joint association of high-dimensional genetic data with a disease phenotype of interest, considering non-linear and non-additive effects (e.g., interaction effects). Through simulations, we demonstrated that our proposed method attained higher power compared to the sequence kernel association test (SKAT), especially in the presence of non-linear and interaction effects. Finally, we apply the methods to the whole genome sequencing (WGS) dataset from the Alzheimer’s Disease Neuroimaging Initiative (ADNI) study, investigating new genes associated with the hippocampal volume change over time.

arxiv情報

著者 Tingting Hou,Chang Jiang,Qing Lu
発行日 2023-12-05 16:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク