要約
タンパク質はアミノ酸配列によって定義される必須の高分子であり、アミノ酸配列はその三次元構造を決定し、その結果、すべての生物におけるその機能を決定します。
したがって、タンパク質の生成モデリングには、配列と構造の両方を同時にモデル化、理解、生成するためのマルチモーダルなアプローチが必要です。
ただし、既存の方法では通常、モダリティごとに個別のモデルが使用され、配列と構造の間の複雑な関係を捕捉する能力が制限されています。
その結果、両方のモダリティを共同で理解して生成する必要があるタスクでは、最適なパフォーマンスが得られません。
この論文では、離散拡散タンパク質言語モデル (DPLM) を拡張して配列と構造の両方に対応するマルチモーダルなタンパク質基礎モデルである DPLM-2 を紹介します。
言語モデルによる構造学習を可能にするために、ルックアップフリーの量子化ベースのトークナイザーを使用して 3D 座標が離散トークンに変換されます。
実験的構造と高品質の合成構造の両方でトレーニングすることにより、DPLM-2 は配列と構造の結合分布、およびその周辺と条件を学習します。
また、大規模な進化データと、事前にトレーニングされた配列ベースのタンパク質言語モデルからの構造誘導バイアスとの関係を活用するための効率的なウォームアップ戦略も実装します。
経験的評価により、DPLM-2 は、2 段階の生成アプローチの必要性を排除して、適合性の高いアミノ酸配列とそれに対応する 3D 構造を同時に生成できることが示されています。
さらに、DPLM-2 は、予測タスクに構造を意識した表現を提供するだけでなく、マルチモーダル モチーフ入力によるフォールディング、逆フォールディング、スキャフォールディングなどのさまざまな条件付き生成タスクでも優れたパフォーマンスを示します。
要約(オリジナル)
Proteins are essential macromolecules defined by their amino acid sequences, which determine their three-dimensional structures and, consequently, their functions in all living organisms. Therefore, generative protein modeling necessitates a multimodal approach to simultaneously model, understand, and generate both sequences and structures. However, existing methods typically use separate models for each modality, limiting their ability to capture the intricate relationships between sequence and structure. This results in suboptimal performance in tasks that requires joint understanding and generation of both modalities. In this paper, we introduce DPLM-2, a multimodal protein foundation model that extends discrete diffusion protein language model (DPLM) to accommodate both sequences and structures. To enable structural learning with the language model, 3D coordinates are converted to discrete tokens using a lookup-free quantization-based tokenizer. By training on both experimental and high-quality synthetic structures, DPLM-2 learns the joint distribution of sequence and structure, as well as their marginals and conditionals. We also implement an efficient warm-up strategy to exploit the connection between large-scale evolutionary data and structural inductive biases from pre-trained sequence-based protein language models. Empirical evaluation shows that DPLM-2 can simultaneously generate highly compatible amino acid sequences and their corresponding 3D structures eliminating the need for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive performance in various conditional generation tasks, including folding, inverse folding, and scaffolding with multimodal motif inputs, as well as providing structure-aware representations for predictive tasks.
arxiv情報
著者 | Xinyou Wang,Zaixiang Zheng,Fei Ye,Dongyu Xue,Shujian Huang,Quanquan Gu |
発行日 | 2024-10-17 17:20:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google