AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction

要約

エピトープの同定は抗体設計にとって不可欠ですが、抗体には固有のばらつきがあるため困難です。
一般的なタンパク質結合部位の予測タスク用に多くの深層学習手法が開発されていますが、それらがエピトープ予測に機能するかどうかは、依然として研究が進んでいない研究課題です。
十分なデータセット サイズとエピトープの多様性を備えた一貫した評価パイプラインが欠如していることによっても、この課題はさらに高まります。
フィルタリングされた抗体-抗原複合体構造データセット、AsEP (Antibody- specific Epitope Prediction) を紹介します。
AsEP はその種の中で最大であり、クラスター化されたエピトープ グループを提供し、コミュニティが新しいエピトープ予測方法を開発およびテストできるようにします。
AsEP には、Python の使いやすいインターフェイスと、各抗体抗原複合体の事前構築されたグラフ表現が付属しており、カスタマイズ可能な埋め込み方法もサポートしています。
この新しいデータセットに基づいて、さまざまな代表的な一般的なタンパク質結合部位予測方法のベンチマークを行ったところ、それらのパフォーマンスがエピトープ予測に期待されるほど満足のいくものではないことがわかりました。
そこで、我々は、タンパク質言語モデルとグラフニューラルネットワークの両方を活用する新しい手法、WALLEを提案します。
WALLE は、既存の方法と比較して約 5 倍のパフォーマンス向上を実証しています。
私たちの経験的発見は、言語モデルによって提供される逐次的な埋め込みとグラフ表現からの幾何学的情報を組み合わせることでエピトープ予測が恩恵を受けることを証明しており、将来のメソッド設計のガイドラインを提供します。
さらに、タスクを二部リンク予測として再定式化し、モデルのパフォーマンスの帰属と解釈を容易にします。
データとコードは https://github.com/biochunan/AsEP-dataset でオープンソースです。

要約(オリジナル)

Epitope identification is vital for antibody design yet challenging due to the inherent variability in antibodies. While many deep learning methods have been developed for general protein binding site prediction tasks, whether they work for epitope prediction remains an understudied research question. The challenge is also heightened by the lack of a consistent evaluation pipeline with sufficient dataset size and epitope diversity. We introduce a filtered antibody-antigen complex structure dataset, AsEP (Antibody-specific Epitope Prediction). AsEP is the largest of its kind and provides clustered epitope groups, allowing the community to develop and test novel epitope prediction methods. AsEP comes with an easy-to-use interface in Python and pre-built graph representations of each antibody-antigen complex while also supporting customizable embedding methods. Based on this new dataset, we benchmarked various representative general protein-binding site prediction methods and find that their performances are not satisfactory as expected for epitope prediction. We thus propose a new method, WALLE, that leverages both protein language models and graph neural networks. WALLE demonstrate about 5X performance gain over existing methods. Our empirical findings evidence that epitope prediction benefits from combining sequential embeddings provided by language models and geometrical information from graph representations, providing a guideline for future method design. In addition, we reformulate the task as bipartite link prediction, allowing easy model performance attribution and interpretability. We open-source our data and code at https://github.com/biochunan/AsEP-dataset.

arxiv情報

著者 Chunan Liu,Lilian Denzler,Yihong Chen,Andrew Martin,Brooks Paige
発行日 2024-07-25 16:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク