Protein Representation Learning via Knowledge Enhanced Primary Structure Modeling

要約

タンパク質表現学習は、主に言語モデル (LM) の目覚ましい発展の恩恵を受けてきました。
したがって、事前にトレーニングされたタンパク質モデルにも、LM の問題があります。それは、事実に関する知識の欠如です。
最近のソリューションは、タンパク質と関連する知識用語との関係を、知識をコード化する目的としてモデル化しています。
ただし、より詳細なレベル、つまりトークン レベルでの関係を調査することはできません。
これを軽減するために、タンパク質表現学習のためにトークンレベルのナレッジグラフ探索を実行する、Knowledge-exploited Auto-encoder for Protein (KeAP) を提案します。
実際には、マスクされていないアミノ酸は、関連する知識トークンを繰り返しクエリして、注意を介してマスクされたアミノ酸を復元するための有用な情報を抽出および統合します。
9 つの代表的なダウンストリーム アプリケーションで、KeAP が一貫して以前の対応物よりも優れたパフォーマンスを発揮できることを示しています。
これらの結果は、KeAP が知識を強化したタンパク質表現学習を実行する代替の効果的な方法を提供することを示唆しています。

要約(オリジナル)

Protein representation learning has primarily benefited from the remarkable development of language models (LMs). Accordingly, pre-trained protein models also suffer from a problem in LMs: a lack of factual knowledge. The recent solution models the relationships between protein and associated knowledge terms as the knowledge encoding objective. However, it fails to explore the relationships at a more granular level, i.e., the token level. To mitigate this, we propose Knowledge-exploited Auto-encoder for Protein (KeAP), which performs token-level knowledge graph exploration for protein representation learning. In practice, non-masked amino acids iteratively query the associated knowledge tokens to extract and integrate helpful information for restoring masked amino acids via attention. We show that KeAP can consistently outperform the previous counterpart on 9 representative downstream applications, sometimes surpassing it by large margins. These results suggest that KeAP provides an alternative yet effective way to perform knowledge enhanced protein representation learning.

arxiv情報

著者 Hong-Yu Zhou,Yunxiang Fu,Zhicheng Zhang,Cheng Bian,Yizhou Yu
発行日 2023-02-15 07:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.MM パーマリンク