Conditional Generation of Paired Antibody Chain Sequences through Encoder-Decoder Language Model

要約

タイトル:エンコーダーデコーダー言語モデルによる、ペア抗体鎖の条件付き生成

要約:
– タンパク質言語モデルは、配列、構造、機能の予測に成功しています。
– しかし、現在のタンパク質言語モデルは、単一の配列のためのエンコーダーまたはデコーダーのみのアーキテクチャに限定されており、多くの生物学的文脈でタンパク質間相互作用が関係している。
– ここでは、pAbT5を紹介し、抗体鎖のペアリングを、T5ベースのアーキテクチャを使用して、前方翻訳と逆方向翻訳としてモデル化する。
– pAbT5は、配列生成によって鎖のペアリングを正確に反映することを示している。
– pAbT5は、可変長の配列を生成し、次の単語の予測確率が、配列アラインメントからの位置特異的スコアリング行列と一致することを示した。
– タンパク質言語モデルで他の作品と同様に、pAbT5は実験的測定に対する最先端の無監督予測を実行する。
– pAbT5は、タンパク質間相互作用のための最初の生成型エンコーダーデコーダー言語モデルである。

要約(オリジナル)

Protein language models (LMs) have been successful in sequence, structural and functional predictions. However, currently, protein LMs are limited to encoder- or decoder-only architectures for single sequences while many biological contexts involve protein-protein interactions. Here, we introduce pAbT5, which models antibody chain pairing as forward- and back-translations using a T5-based architecture. We show that pAbT5 accurately reflects chain pairing through sequence generation. Our protein LM generates variable-length sequences and its next-word prediction probability agrees with position-specific scoring matrix from sequence alignment. Like other works in protein LM, pAbT5 performs state-of-the-art unsupervised prediction on experimental measurements. To the best of our knowledge, pAbT5 is the first generative encoder-decoder protein LM for protein-protein interactions.

arxiv情報

著者 Simon K. S. Chu,Kathy Y. Wei
発行日 2023-04-04 18:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CE, cs.CL, q-bio.BM パーマリンク