ProtFAD: Introducing function-aware domains as implicit modality towards protein function prediction

要約

タンパク質の機能予測は現在、その配列または構造をエンコードすることによって実現されていますが、配列から機能への超越性と高品質の構造データの不足が明らかなパフォーマンスのボトルネックにつながっています。
タンパク質ドメインは、機能的に独立したタンパク質の「構成要素」であり、その組み合わせによって多様な生物学的機能が決定されます。
しかし、既存の研究のほとんどは、タンパク質ドメインに含まれる複雑な機能情報をまだ徹底的に調査していません。
このギャップを埋めるために、機能を意識したドメイン表現のための相乗的統合アプローチと、モダリティを調整しながら異なるタンパク質機能を区別するためのドメイン結合対比学習戦略を提案します。
具体的には、ドメインのセマンティクスを GO の用語とテキストの説明に合わせて、ドメインの埋め込みを事前トレーニングします。
さらに、新しいトリプレット InfoNCE 損失の監視下での対照トレーニングのために、連続結合ドメインに基づいてタンパク質を複数のサブビューに分割します。
当社のアプローチは、さまざまなベンチマークにおいて最先端の方法を大幅かつ包括的に上回っており、競合他社と比較して、異なる機能を持つタンパク質を明確に差別化します。
私たちの実装は https://github.com/AI-HPC-Research-Team/ProtFAD で入手できます。

要約(オリジナル)

Protein function prediction is currently achieved by encoding its sequence or structure, where the sequence-to-function transcendence and high-quality structural data scarcity lead to obvious performance bottlenecks. Protein domains are ‘building blocks’ of proteins that are functionally independent, and their combinations determine the diverse biological functions. However, most existing studies have yet to thoroughly explore the intricate functional information contained in the protein domains. To fill this gap, we propose a synergistic integration approach for a function-aware domain representation, and a domain-joint contrastive learning strategy to distinguish different protein functions while aligning the modalities. Specifically, we align the domain semantics with GO terms and text description to pre-train domain embeddings. Furthermore, we partition proteins into multiple sub-views based on continuous joint domains for contrastive training under the supervision of a novel triplet InfoNCE loss. Our approach significantly and comprehensively outperforms the state-of-the-art methods on various benchmarks, and clearly differentiates proteins carrying distinct functions compared to the competitor. Our implementation is available at https://github.com/AI-HPC-Research-Team/ProtFAD.

arxiv情報

著者 Mingqing Wang,Zhiwei Nie,Yonghong He,Athanasios V. Vasilakos,Zhixiang Ren
発行日 2024-12-02 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク