Multi-level protein pre-training with Vabs-Net

要約

近年、3次元構造ベースの事前学習済みタンパク質モデルの開発が急増しており、様々な下流タスクにおいて、事前学習済みタンパク質言語モデルよりも大きな進歩を遂げている。しかし、既存の構造ベースの事前学習済みモデルのほとんどは、主に残基レベル、すなわちα炭素原子に焦点を当てており、側鎖原子のような他の原子は無視されている。我々は、残基レベルと原子レベルの両方でタンパク質をモデル化することが重要であると主張する。なぜなら、側鎖原子は、例えば分子ドッキングのような多くの下流タスクにとっても重要だからである。それにもかかわらず、事前学習において残基と原子の情報を素朴に組み合わせると、通常失敗することがわかった。その主な理由は、入力に原子の構造が含まれることによって生じる情報の漏れにあり、これによって残基レベルの事前学習タスクは些細なものとなり、残基表現の表現力が不十分となる。この問題に対処するため、我々は、残基と原子の両方の意味のある表現を学習するために、3次元タンパク質鎖にスパンマスク事前学習戦略を導入する。これにより、多様な下流タスクに適した、シンプルかつ効果的なタンパク質表現学習アプローチを実現する。結合部位予測や機能予測タスクに関する広範な実験結果は、我々の提案する事前学習アプローチが他の手法を大幅に上回ることを示している。我々のコードは公開される予定である。

要約(オリジナル)

In recent years, there has been a surge in the development of 3D structure-based pre-trained protein models, representing a significant advancement over pre-trained protein language models in various downstream tasks. However, most existing structure-based pre-trained models primarily focus on the residue level, i.e., alpha carbon atoms, while ignoring other atoms like side chain atoms. We argue that modeling proteins at both residue and atom levels is important since the side chain atoms can also be crucial for numerous downstream tasks, for example, molecular docking. Nevertheless, we find that naively combining residue and atom information during pre-training typically fails. We identify a key reason is the information leakage caused by the inclusion of atom structure in the input, which renders residue-level pre-training tasks trivial and results in insufficiently expressive residue representations. To address this issue, we introduce a span mask pre-training strategy on 3D protein chains to learn meaningful representations of both residues and atoms. This leads to a simple yet effective approach to learning protein representation suitable for diverse downstream tasks. Extensive experimental results on binding site prediction and function prediction tasks demonstrate our proposed pre-training approach significantly outperforms other methods. Our code will be made public.

arxiv情報

著者 Jiale Zhao,Wanru Zhuang,Jia Song,Yaqi Li,Shuqi Lu
発行日 2024-02-05 05:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク