Contrastive learning of T cell receptor representations

要約

T 細胞受容体 (TCR) とそのリガンドの相互作用をコンピューターで予測することは、免疫学における大きな課題です。
ハイスループットアッセイの進歩にもかかわらず、特異性標識された TCR データは依然としてまばらです。
他の分野では、ラベルのないデータに対する言語モデルの事前トレーニングを使用して、データのボトルネックに対処することに成功しています。
ただし、TCR 特異性予測のためにタンパク質言語モデルを事前トレーニングする最適な方法は不明です。
ここでは、データ効率の高い転移学習が可能な SCEPTR (Simple Contrastive Embedding of the Primary sequence of T cell Receptors) と呼ばれる TCR 言語モデルを紹介します。
私たちのモデルを通じて、自動対比学習とマスク言語モデリングを組み合わせた新しい事前トレーニング戦略を導入し、SCEPTR が最先端のパフォーマンスを達成できるようにします。
対照的に、既存のタンパク質言語モデルと自己対比学習なしで事前トレーニングされた SCEPTR のバリアントは、配列アライメントに基づく方法よりも優れたパフォーマンスを示します。
私たちは、対照学習が TCR 特異性の規則を解読するための有用なパラダイムになると期待しています。

要約(オリジナル)

Computational prediction of the interaction of T cell receptors (TCRs) and their ligands is a grand challenge in immunology. Despite advances in high-throughput assays, specificity-labelled TCR data remains sparse. In other domains, the pre-training of language models on unlabelled data has been successfully used to address data bottlenecks. However, it is unclear how to best pre-train protein language models for TCR specificity prediction. Here we introduce a TCR language model called SCEPTR (Simple Contrastive Embedding of the Primary sequence of T cell Receptors), capable of data-efficient transfer learning. Through our model, we introduce a novel pre-training strategy combining autocontrastive learning and masked-language modelling, which enables SCEPTR to achieve its state-of-the-art performance. In contrast, existing protein language models and a variant of SCEPTR pre-trained without autocontrastive learning are outperformed by sequence alignment-based methods. We anticipate that contrastive learning will be a useful paradigm to decode the rules of TCR specificity.

arxiv情報

著者 Yuta Nagano,Andrew Pyo,Martina Milighetti,James Henderson,John Shawe-Taylor,Benny Chain,Andreas Tiffeau-Mayer
発行日 2024-06-10 15:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.7, q-bio.BM パーマリンク