Inferring genotype-phenotype maps using attention models

要約

遺伝子型から表現型を予測することは、遺伝学の中心的な課題です。
定量的遺伝学における従来のアプローチは、通常、線形回帰に基づいた方法を使用してこの問題を分析します。
これらの方法は一般に、複雑な形質の遺伝的構造は、遺伝子座の効果が独立している加法モデルの観点からパラメーター化される可能性があることを前提としています。
しかし、これらのモデルは、より複雑なエピスタシスまたは微妙な遺伝子環境相互作用の分析に苦労しています。
機械学習の最近の進歩、特に注意ベースのモデルは、有望な代替品を提供します。
当初、自然言語処理のために開発された注意ベースのモデルは、コンテキスト依存の相互作用のキャプチャに優れており、タンパク質の構造と機能を予測する上で例外的なパフォーマンスを示しています。
ここでは、定量的遺伝学に注意ベースのモデルを適用します。
この注意ベースのアプローチのパフォーマンスを、遺伝子型からの表現型を予測する際のパフォーマンスを分析します。さまざまなモデルにわたってシミュレートされたデータを使用して、エピスタティックな複雑さを高め、出芽酵母における最近の定量的特性遺伝子座マッピング研究の実験データを使用します。
我々のモデルは、標準的な方法と比較して、上結果系の優れたサンプル外予測を実証していることがわかります。
また、より一般的なマルチ環境注意ベースのモデルを探索して、複数の環境で遺伝子型表現型マップを共同で分析し、そのようなアーキテクチャを「転送学習」に使用できることを示しています。

要約(オリジナル)

Predicting phenotype from genotype is a central challenge in genetics. Traditional approaches in quantitative genetics typically analyze this problem using methods based on linear regression. These methods generally assume that the genetic architecture of complex traits can be parameterized in terms of an additive model, where the effects of loci are independent, plus (in some cases) pairwise epistatic interactions between loci. However, these models struggle to analyze more complex patterns of epistasis or subtle gene-environment interactions. Recent advances in machine learning, particularly attention-based models, offer a promising alternative. Initially developed for natural language processing, attention-based models excel at capturing context-dependent interactions and have shown exceptional performance in predicting protein structure and function. Here, we apply attention-based models to quantitative genetics. We analyze the performance of this attention-based approach in predicting phenotype from genotype using simulated data across a range of models with increasing epistatic complexity, and using experimental data from a recent quantitative trait locus mapping study in budding yeast. We find that our model demonstrates superior out-of-sample predictions in epistatic regimes compared to standard methods. We also explore a more general multi-environment attention-based model to jointly analyze genotype-phenotype maps across multiple environments and show that such architectures can be used for ‘transfer learning’ – predicting phenotypes in novel environments with limited training data.

arxiv情報

著者 Krishna Rijal,Caroline M. Holmes,Samantha Petti,Gautam Reddy,Michael M. Desai,Pankaj Mehta
発行日 2025-04-14 16:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN, q-bio.PE パーマリンク