Large scale paired antibody language models

要約

抗体は免疫系によって産生されるタンパク質であり、高い特異性と親和性でさまざまな抗原を識別して中和することができ、最も成功した種類の生物療法を構成します。
次世代シークエンシングの出現により、近年、数十億の抗体配列が収集されましたが、より良い治療法の設計におけるそれらの応用は、データの膨大さと複雑さによって制約を受けてきました。
この課題に対処するために、ペア可変領域配列とペア可変領域配列の両方を入力として一貫して処理できる、これまでに開発された最もパフォーマンスの高い抗体特異的言語モデルである IgBert および IgT5 を紹介します。
これらのモデルは、Observed Antibody Space データセットに存在する軽鎖と重鎖の 20 億を超える不対配列と 200 万の対配列を使用して包括的にトレーニングされています。
我々のモデルは、抗体工学に関連するさまざまな設計および回帰タスクにおいて、既存の抗体およびタンパク質言語モデルよりも優れたパフォーマンスを発揮することを示します。
この進歩は、治療法開発のための抗体設計を強化するための機械学習、大規模データセット、ハイパフォーマンスコンピューティングの活用における大きな進歩を示しています。

要約(オリジナル)

Antibodies are proteins produced by the immune system that can identify and neutralise a wide variety of antigens with high specificity and affinity, and constitute the most successful class of biotherapeutics. With the advent of next-generation sequencing, billions of antibody sequences have been collected in recent years, though their application in the design of better therapeutics has been constrained by the sheer volume and complexity of the data. To address this challenge, we present IgBert and IgT5, the best performing antibody-specific language models developed to date which can consistently handle both paired and unpaired variable region sequences as input. These models are trained comprehensively using the more than two billion unpaired sequences and two million paired sequences of light and heavy chains present in the Observed Antibody Space dataset. We show that our models outperform existing antibody and protein language models on a diverse range of design and regression tasks relevant to antibody engineering. This advancement marks a significant leap forward in leveraging machine learning, large scale data sets and high-performance computing for enhancing antibody design for therapeutic development.

arxiv情報

著者 Henry Kenlay,Frédéric A. Dreyer,Aleksandr Kovaltsuk,Dom Miketa,Douglas Pires,Charlotte M. Deane
発行日 2024-03-26 17:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク