tcrLM: a lightweight protein language model for predicting T cell receptor and epitope binding specificity

要約

抗がん免疫応答は、T 細胞受容体 (TCR) と抗原との結合に依存しており、これにより腫瘍細胞を排除するための適応免疫が誘発されます。
新規のさまざまなネオアンチゲンに応答する免疫系のこの能力は、TCR リポジトリの膨大な多様性から生じます。
しかし、TCR の多様性は、抗原と TCR の結合を正確に予測する上で重大な課題を引き起こします。
この研究では、この課題に対処するために、tcrLM と呼ばれる軽量のマスク言語モデルを導入します。
私たちのアプローチには、TCR シーケンスのセグメントをランダムにマスクし、マスクされたセグメントを推論するように tcrLM をトレーニングすることが含まれます。これにより、TCR シーケンスから表現的特徴を抽出できるようになります。
堅牢性をさらに強化するために、仮想敵対的トレーニングを tcrLM に組み込みます。
私たちは、1 億を超える異なるシーケンスを含む最大の TCR CDR3 シーケンス セットを構築し、これらのシーケンスで tcrLM を事前トレーニングします。
事前にトレーニングされたエンコーダーは、その後、TCR 抗原結合特異性を予測するために適用されます。
3 つのテスト データセット (独立テスト セット、外部テスト セット、および COVID-19 テスト セット) でモデルのパフォーマンスを評価します。
この結果は、tcrLM が既存の TCR 抗原結合予測方法を上回るだけでなく、他の主流のタンパク質言語モデルも上回ることを示しています。
さらに興味深いことに、tcrLM は TCR 配列内のアミノ酸の生化学的特性と位置の優先性を効果的に捕捉します。
さらに、予測された TCR ネオアンチゲン結合スコアは、黒色腫コホートにおける免疫療法の反応と臨床転帰を示します。
これらの発見は、TCR 抗原結合特異性の予測における tcrLM の可能性を実証しており、免疫療法と個別化医療の進歩に重大な意味をもたらします。

要約(オリジナル)

The anti-cancer immune response relies on the bindings between T-cell receptors (TCRs) and antigens, which elicits adaptive immunity to eliminate tumor cells. This ability of the immune system to respond to novel various neoantigens arises from the immense diversity of TCR repository. However, TCR diversity poses a significant challenge on accurately predicting antigen-TCR bindings. In this study, we introduce a lightweight masked language model, termed tcrLM, to address this challenge. Our approach involves randomly masking segments of TCR sequences and training tcrLM to infer the masked segments, thereby enabling the extraction of expressive features from TCR sequences. To further enhance robustness, we incorporate virtual adversarial training into tcrLM. We construct the largest TCR CDR3 sequence set with more than 100 million distinct sequences, and pretrain tcrLM on these sequences. The pre-trained encoder is subsequently applied to predict TCR-antigen binding specificity. We evaluate model performance on three test datasets: independent, external, and COVID-19 test set. The results demonstrate that tcrLM not only surpasses existing TCR-antigen binding prediction methods, but also outperforms other mainstream protein language models. More interestingly, tcrLM effectively captures the biochemical properties and positional preference of amino acids within TCR sequences. Additionally, the predicted TCR-neoantigen binding scores indicates the immunotherapy responses and clinical outcomes in a melanoma cohort. These findings demonstrate the potential of tcrLM in predicting TCR-antigen binding specificity, with significant implications for advancing immunotherapy and personalized medicine.

arxiv情報

著者 Xing Fang,Chenpeng Yu,Shiye Tian,Hui Liu
発行日 2024-12-04 14:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.QM パーマリンク