FastImpute: A Baseline for Open-source, Reference-Free Genotype Imputation Methods — A Case Study in PRS313

要約

遺伝子型補完は、参照ハプロタイプ情報を使用して欠落している SNP を予測することにより、遺伝データを強化します。
従来の方法では、連鎖不均衡 (LD) を活用して、遺伝子型特定されたターゲット セットと完全に配列決定された参照パネル間の LD 構造の類似性に依存して、型特定されていない SNP 遺伝子型を推測します。
最近、リファレンスフリーの深層学習ベースの手法が登場し、外部データベースを使用せずに欠落している遺伝子型を予測することで、プライバシーとアクセシビリティを強化する有望な代替手段を提供します。
ただし、これらの方法では多くの場合、数千万のパラメーターを含むモデルが生成されるため、トレーニングに大量の計算リソースが必要になることや、クライアント側の展開の非効率性などの課題が生じます。
私たちの研究は、あらゆるジェノタイピングチップとゲノム領域にわたって一般化可能なクライアント側の代入モデルをサポートする新しい遺伝子型代入パイプラインのベースラインを導入することで、これらの制限に対処しています。
このアプローチでは、エッジ デバイス上で直接代入を実行することにより、患者のプライバシーを強化します。
ケーススタディとして、乳がんのリスク予測に使用される 313 個の SNP からなる多遺伝子リスク スコアである PRS313 に焦点を当てます。
23andMe などの消費者遺伝子パネルを利用する私たちのモデルは、23andMe ユーザーが PRS313 スコアを取得できるようにすることで、パーソナライズされた遺伝的洞察へのアクセスを民主化します。
我々は、23andMe などの消費者遺伝子パネルから推定された SNP を使用して計算した場合、単純な線形回帰によって PRS313 スコアの精度が大幅に向上する可能性があることを実証します。
私たちの線形回帰モデルでは、R^2 が 0.86 に達しました。これに対し、補完なしでは 0.33、単純な補完 (欠落している SNP をマイナーな対立遺伝子頻度で置き換える) では 0.28 でした。
これらの発見は、一般的な SNP 解析ライブラリが遺伝子型代入のための線形回帰モデルを統合することで恩恵を受け、参照ベースの代入に代わる実行可能で軽量な代替手段を提供できることを示唆しています。

要約(オリジナル)

Genotype imputation enhances genetic data by predicting missing SNPs using reference haplotype information. Traditional methods leverage linkage disequilibrium (LD) to infer untyped SNP genotypes, relying on the similarity of LD structures between genotyped target sets and fully sequenced reference panels. Recently, reference-free deep learning-based methods have emerged, offering a promising alternative by predicting missing genotypes without external databases, thereby enhancing privacy and accessibility. However, these methods often produce models with tens of millions of parameters, leading to challenges such as the need for substantial computational resources to train and inefficiency for client-sided deployment. Our study addresses these limitations by introducing a baseline for a novel genotype imputation pipeline that supports client-sided imputation models generalizable across any genotyping chip and genomic region. This approach enhances patient privacy by performing imputation directly on edge devices. As a case study, we focus on PRS313, a polygenic risk score comprising 313 SNPs used for breast cancer risk prediction. Utilizing consumer genetic panels such as 23andMe, our model democratizes access to personalized genetic insights by allowing 23andMe users to obtain their PRS313 score. We demonstrate that simple linear regression can significantly improve the accuracy of PRS313 scores when calculated using SNPs imputed from consumer gene panels, such as 23andMe. Our linear regression model achieved an R^2 of 0.86, compared to 0.33 without imputation and 0.28 with simple imputation (substituting missing SNPs with the minor allele frequency). These findings suggest that popular SNP analysis libraries could benefit from integrating linear regression models for genotype imputation, providing a viable and light-weight alternative to reference based imputation.

arxiv情報

著者 Aaron Ge,Jeya Balasubramanian,Xueyao Wu,Peter Kraft,Jonas S. Almeida
発行日 2024-07-12 15:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.GN パーマリンク