Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions

要約

トランスアーキテクチャは、生体分子の特性の理解と予測のバイオインフォマティクスと駆動型の進歩に革命をもたらしました。
大規模な生体性向上トランスに関するほとんどすべての研究は、一度に1つのドメイン(単一OMIC)、通常はDNA/RNAまたはタンパク質に焦点を当てています。
これらのモデルは、各ドメインのダウンストリームタスクで信じられないほどの成功を収めており、シーケンスモデリングと構造モデリングで特に注目に値するブレークスルーを達成しました。
ただし、これらの単一OMICモデルは、マルチOMICタスクを効率的にモデル化することは自然にできません。これは、最も生物学的に重要なタンパク質核酸相互作用の1つです。
これまでで最大のオープンソースマルチオミックファンデーションモデルである作業トレーニングを紹介します。
これらのマルチオミックモデル(MOM)は、非標識生物の外生物のみで訓練されているにもかかわらず、分子生物学の中心的な教義と緊急に一致するさまざまな単一OMIC分布の間の共同表現を学ぶことができることを示しています。
さらに、MOMがタンパク質核酸相互作用タスクの最新結果を達成するために微調整できることを実証します。つまり、特定の核酸とタンパク質間の結合相互作用のギブス自由エネルギー($ \ delta G $)の変化を予測します。
驚くべきことに、マルチオミカスの生体量変圧器は、\ textit {a priori}構造トレーニングなしで有用な構造情報を緊急に学習し、どのタンパク質残基がタンパク質核酸酸結合相互作用に最も関与しているかを予測できることを示しています。
最後に、マルチオミカスの生物質モデルは、多くの場合、フロップあたりのパフォーマンスと絶対パフォーマンスの両方で、シングルオミクス分布で訓練された基礎モデルよりも優れているという証拠を提供します。

要約(オリジナル)

The transformer architecture has revolutionized bioinformatics and driven progress in the understanding and prediction of the properties of biomolecules. Almost all research on large-scale biosequence transformers has focused on one domain at a time (single-omic), usually DNA/RNA or proteins. These models have seen incredible success in downstream tasks in each domain, and have achieved particularly noteworthy breakthroughs in sequence modeling and structural modeling. However, these single-omic models are naturally incapable of efficiently modeling multi-omic tasks, one of the most biologically critical being protein-nucleic acid interactions. We present our work training the largest open-source multi-omic foundation model to date. We show that these multi-omic models (MOMs) can learn joint representations between various single-omic distributions that are emergently consistent with the Central Dogma of molecular biology despite only being trained on unlabeled biosequences. We further demonstrate that MOMs can be fine-tuned to achieve state-of-the-art results on protein-nucleic acid interaction tasks, namely predicting the change in Gibbs free energy ($\Delta G$) of the binding interaction between a given nucleic acid and protein. Remarkably, we show that multi-omic biosequence transformers emergently learn useful structural information without any \textit{a priori} structural training, allowing us to predict which protein residues are most involved in the protein-nucleic acid binding interaction. Lastly, we provide evidence that multi-omic biosequence models are in many cases superior to foundation models trained on single-omics distributions, both in performance-per-FLOP and absolute performance, suggesting a more generalized or foundational approach to building these models for biology.

arxiv情報

著者 Sully F. Chen,Robert J. Steele,Glen M. Hocky,Beakal Lemeneh,Shivanand P. Lad,Eric K. Oermann
発行日 2025-04-01 17:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク