Exploring the Protein Sequence Space with Global Generative Models

要約

タイトル:グローバル生成モデルを用いたタンパク質配列空間の探索

要約:

– 最新の大規模なトレーニングアーキテクチャ(特定の画像や言語の学習用のアーキテクチャ)の進歩により、コンピュータビジョンや自然言語処理(NLP)の分野に大きな影響を与えました。
– ChatGPTやGPT4などの言語モデルは、人間の言語を処理、翻訳、生成するという優れた能力を持っていることが示されています。これらのブレークスルーは、タンパク質研究にも反映され、短期間に数多くの新しい手法が驚異的なパフォーマンスで急速に開発されました。
– 特に、言語モデルはタンパク質研究で広く使用されており、タンパク質の埋め込み、新しいタンパク質の生成、三次構造の予測に利用されています。
– この本章では、タンパク質生成モデルの使用について概説し、1)人工的なタンパク質の設計のための言語モデル、2)トランスフォーマー以外のアーキテクチャを使用する作品、および3)進化的アプローチにおける応用について見ていきます。

要約(オリジナル)

Recent advancements in specialized large-scale architectures for training image and language have profoundly impacted the field of computer vision and natural language processing (NLP). Language models, such as the recent ChatGPT and GPT4 have demonstrated exceptional capabilities in processing, translating, and generating human languages. These breakthroughs have also been reflected in protein research, leading to the rapid development of numerous new methods in a short time, with unprecedented performance. Language models, in particular, have seen widespread use in protein research, as they have been utilized to embed proteins, generate novel ones, and predict tertiary structures. In this book chapter, we provide an overview of the use of protein generative models, reviewing 1) language models for the design of novel artificial proteins, 2) works that use non-Transformer architectures, and 3) applications in directed evolution approaches.

arxiv情報

著者 Sergio Romero-Romero,Sebastian Lindner,Noelia Ferruz
発行日 2023-05-03 07:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, q-bio.BM パーマリンク