Structure-aware Protein Self-supervised Learning

要約

タイトル: 構造に配慮したタンパク質自己教師あり学習

要約:
– タンパク質表現学習法は、タンパク質分類など、多くの downstream task のために有用な表現を生み出す潜在力があることが示されている。
– しかしながら、タンパク質表現学習法は、タンパク質の構造情報を考慮せずにタンパク質配列上で事前学習されることが一般的である。
– そのため、本論文では、構造情報を効果的にキャプチャするための新しい構造に配慮したタンパク質自己教師あり学習法を提案する。
– 特に、ペアワイズ残基距離の観点とジハイドラル角度の観点から自己教師タスクで構造情報を維持するように設計されたグラフニューラルネットワーク (GNN) モデルを事前学習することを提案する。
– さらに、タンパク質配列上で事前学習された既存のタンパク質言語モデルを活用して自己教師学習を強化することを提案する。
– ここで、特別に設計された GNN モデルの構造情報とタンパク質言語モデルの逐次的情報の関係を新しい疑似二層最適化スキームを介して特定する。
– いくつかの監視付き downstream task 上の実験により、提案された方法の効果が検証された。
– 提案された方法のコードは \url{https://github.com/GGchen1997/STEPS_Bioinformatics} で入手可能。

要約(オリジナル)

Protein representation learning methods have shown great potential to yield useful representation for many downstream tasks, especially on protein classification. Moreover, a few recent studies have shown great promise in addressing insufficient labels of proteins with self-supervised learning methods. However, existing protein language models are usually pretrained on protein sequences without considering the important protein structural information. To this end, we propose a novel structure-aware protein self-supervised learning method to effectively capture structural information of proteins. In particular, a well-designed graph neural network (GNN) model is pretrained to preserve the protein structural information with self-supervised tasks from a pairwise residue distance perspective and a dihedral angle perspective, respectively. Furthermore, we propose to leverage the available protein language model pretrained on protein sequences to enhance the self-supervised learning. Specifically, we identify the relation between the sequential information in the protein language model and the structural information in the specially designed GNN model via a novel pseudo bi-level optimization scheme. Experiments on several supervised downstream tasks verify the effectiveness of our proposed method.The code of the proposed method is available in \url{https://github.com/GGchen1997/STEPS_Bioinformatics}.

arxiv情報

著者 Can Chen,Jingbo Zhou,Fan Wang,Xue Liu,Dejing Dou
発行日 2023-04-08 22:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク