Annotation-guided Protein Design with Multi-Level Domain Alignment

要約

de novo タンパク質設計の中心的な課題は、特定の条件に従って、特定の機能または特性を持つタンパク質を作成することにあります。
現在のモデルは、機能と特性に関する間接的な条件のみを提供する構造的および進化的ガイダンスを使用してタンパク質を生成することを検討しています。
しかし、タンパク質のテキストによるアノテーション、特にタンパク質の高レベルの機能、特性、および標的アミノ酸配列との相関関係を直接記述するタンパク質ドメインのアノテーションは、タンパク質設計タスクの文脈では未調査のままです。
この論文では、タンパク質データベースから抽出されたテキストアノテーションを統合して配列空間で制御可能な生成を行うマルチモダリティタンパク質設計フレームワークである、タンパク質アノテーションアライメント生成(PAAG)を提案します。
具体的には、PAAG は、マルチレベル アライメント モジュール内で、対応するドメイン アノテーションに条件付けされた特定のドメインを含むタンパク質を明示的に生成でき、異なる種類のアノテーションを柔軟に組み合わせて新規タンパク質を設計することもできます。
私たちの実験結果は、7 つの予測タスクよりも PAAG からの整列されたタンパク質表現の優位性を強調しています。
さらに、PAAG は、既存のモデルと比較して、生成成功率の大幅な増加を示します (ジンクフィンガーでは 24.7% 対 4.7%、免疫グロブリン ドメインでは 54.3% 対 22.0%)。
私たちは、PAAG がテキストアノテーションとタンパク質の間の知識を活用することにより、タンパク質設計の視野を広げることを期待しています。

要約(オリジナル)

The core challenge of de novo protein design lies in creating proteins with specific functions or properties, guided by certain conditions. Current models explore to generate protein using structural and evolutionary guidance, which only provide indirect conditions concerning functions and properties. However, textual annotations of proteins, especially the annotations for protein domains, which directly describe the protein’s high-level functionalities, properties, and their correlation with target amino acid sequences, remain unexplored in the context of protein design tasks. In this paper, we propose Protein-Annotation Alignment Generation, PAAG, a multi-modality protein design framework that integrates the textual annotations extracted from protein database for controllable generation in sequence space. Specifically, within a multi-level alignment module, PAAG can explicitly generate proteins containing specific domains conditioned on the corresponding domain annotations, and can even design novel proteins with flexible combinations of different kinds of annotations. Our experimental results underscore the superiority of the aligned protein representations from PAAG over 7 prediction tasks. Furthermore, PAAG demonstrates a significant increase in generation success rate (24.7% vs 4.7% in zinc finger, and 54.3% vs 22.0% in the immunoglobulin domain) in comparison to the existing model. We anticipate that PAAG will broaden the horizons of protein design by leveraging the knowledge from between textual annotation and proteins.

arxiv情報

著者 Chaohao Yuan,Songyou Li,Geyan Ye,Yikun Zhang,Long-Kai Huang,Wenbing Huang,Wei Liu,Jianhua Yao,Yu Rong
発行日 2024-12-12 07:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク