A Systematic Study of Joint Representation Learning on Protein Sequences and Structures

要約

効果的なタンパク質の表現を学習することは、タンパク質の機能の予測など、生物学のさまざまなタスクにおいて重要です。
タンパク質言語モデル (PLM) に基づいた最近の配列表現学習方法は、配列ベースのタスクには優れていますが、タンパク質構造が関与するタスクに直接適応させることは依然として課題です。
対照的に、構造ベースの手法は、グラフ ニューラル ネットワークと幾何学的な事前トレーニング手法を使用して 3D 構造情報を活用し、関数予測タスクでの可能性を示していますが、依然として利用可能な構造の数が限られているという問題があります。
このギャップを埋めるために、私たちの研究では、最先端の PLM (ESM-2) と個別の構造エンコーダー (GVP、GearNet、CDConv) を統合することにより、結合タンパク質表現学習の包括的な調査を行っています。
3 つの表現融合戦略を紹介し、さまざまな事前トレーニング手法を検討します。
私たちの方法は、既存のシーケンスベースおよび構造ベースの方法に比べて大幅な改善を達成し、関数アノテーションの新しい最先端を確立します。
この研究は、タンパク質の配列と構造情報を融合するためのいくつかの重要な設計上の選択を強調しています。
私たちの実装は https://github.com/DeepGraphLearning/ESM-GearNet で入手できます。

要約(オリジナル)

Learning effective protein representations is critical in a variety of tasks in biology such as predicting protein functions. Recent sequence representation learning methods based on Protein Language Models (PLMs) excel in sequence-based tasks, but their direct adaptation to tasks involving protein structures remains a challenge. In contrast, structure-based methods leverage 3D structural information with graph neural networks and geometric pre-training methods show potential in function prediction tasks, but still suffers from the limited number of available structures. To bridge this gap, our study undertakes a comprehensive exploration of joint protein representation learning by integrating a state-of-the-art PLM (ESM-2) with distinct structure encoders (GVP, GearNet, CDConv). We introduce three representation fusion strategies and explore different pre-training techniques. Our method achieves significant improvements over existing sequence- and structure-based methods, setting new state-of-the-art for function annotation. This study underscores several important design choices for fusing protein sequence and structure information. Our implementation is available at https://github.com/DeepGraphLearning/ESM-GearNet.

arxiv情報

著者 Zuobai Zhang,Chuanrui Wang,Minghao Xu,Vijil Chenthamarakshan,Aurélie Lozano,Payel Das,Jian Tang
発行日 2023-10-18 16:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク