Conditional Generation of Paired Antibody Chain Sequences through Encoder-Decoder Language Model

要約

【タイトル】エンコーダーデコーダーランゲージモデルを用いた条件付きの抗体チェーン配列の生成

【要約】

– タンパク質の言語モデルは、配列、構造、機能の予測に成功している
– しかし、現在、タンパク質の言語モデルは、単一の配列のエンコーダーまたはデコーダーのみのアーキテクチャに限定されている
– しかし、多くの生物学的文脈では、タンパク質-タンパク質相互作用が重要である
– そこで、pAbT5を導入する。これは、T5ベースのアーキテクチャを使用して、抗体チェーンのペアリングを前進と逆転の翻訳としてモデル化する。
– pAbT5は、配列生成を通じてチェーンペアリングを正確に再現することを示している。
– 我々のタンパク質言語モデルは、可変長の配列を生成し、次の単語の予測確率が配列アラインメントからの位置特異的スコアリングマトリックスと一致する。
– pAbT5は、他のタンパク質言語モデルの作品と同様に、実験的な測定値に対して最先端の非監視予測を行うことができます。
– pAbT5は、私たちの知る限りでは、タンパク質-タンパク質相互作用のための最初の生成的エンコーダーデコーダータンパク質言語モデルです。

要約(オリジナル)

Protein language models (LMs) have been successful in sequence, structural and functional predictions. However, currently, protein LMs are limited to encoder- or decoder-only architectures for single sequences while many biological contexts involve protein-protein interactions. Here, we introduce pAbT5, which models antibody chain pairing as forward- and back-translations using a T5-based architecture. We show that pAbT5 accurately reflects chain pairing through sequence generation. Our protein LM generates variable-length sequences and its next-word prediction probability agrees with position-specific scoring matrix from sequence alignment. Like other works in protein LM, pAbT5 performs state-of-the-art unsupervised prediction on experimental measurements. To the best of our knowledge, pAbT5 is the first generative encoder-decoder protein LM for protein-protein interactions.

arxiv情報

著者 Simon K. S. Chu,Kathy Y. Wei
発行日 2023-04-02 21:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CE, cs.CL, q-bio.BM パーマリンク