要約
大規模言語モデル (LLM) は自然言語処理の分野に革命をもたらしましたが、タンパク質などの生物学的配列を理解するには不十分です。
この課題に対処するために、私たちは、人間言語とタンパク質言語の両方で双方向生成機能を備えた革新的な LLM である InstructProtein を提案します。(i) タンパク質配列を入力として受け取り、そのテキスト関数の説明を予測し、(ii) 自然言語を使用してタンパク質配列をプロンプトします。
世代。
これを達成するために、まずタンパク質と自然言語コーパスの両方で LLM を事前トレーニングし、個々の言語を理解できるようにします。
次に、教師あり命令チューニングを使用して、これら 2 つの異なる言語の調整を容易にします。
ここでは、ナレッジグラフベースの命令生成フレームワークを導入して、高品質の命令データセットを構築し、既存のタンパク質テキストコーパスにおける注釈の不均衡と命令の欠落に対処します。
特に、命令はタンパク質間の構造関係とナレッジ グラフの機能注釈を継承します。これにより、自然言語の思考連鎖プロセスに似た、タンパク質機能の因果モデリングに私たちのモデルが参加できるようになります。
双方向プロテインテキスト生成タスクに関する広範な実験により、InstructProtein が最先端の LLM よりも大幅に優れていることがわかりました。
さらに、InstructProtein は、テキストベースのタンパク質の機能予測と配列設計に向けた先駆的なステップとして機能し、タンパク質と人間の言語理解の間のギャップを効果的に橋渡しします。
要約(オリジナル)
Large Language Models (LLMs) have revolutionized the field of natural language processing, but they fall short in comprehending biological sequences such as proteins. To address this challenge, we propose InstructProtein, an innovative LLM that possesses bidirectional generation capabilities in both human and protein languages: (i) taking a protein sequence as input to predict its textual function description and (ii) using natural language to prompt protein sequence generation. To achieve this, we first pre-train an LLM on both protein and natural language corpora, enabling it to comprehend individual languages. Then supervised instruction tuning is employed to facilitate the alignment of these two distinct languages. Herein, we introduce a knowledge graph-based instruction generation framework to construct a high-quality instruction dataset, addressing annotation imbalance and instruction deficits in existing protein-text corpus. In particular, the instructions inherit the structural relations between proteins and function annotations in knowledge graphs, which empowers our model to engage in the causal modeling of protein functions, akin to the chain-of-thought processes in natural languages. Extensive experiments on bidirectional protein-text generation tasks show that InstructProtein outperforms state-of-the-art LLMs by large margins. Moreover, InstructProtein serves as a pioneering step towards text-based protein function prediction and sequence design, effectively bridging the gap between protein and human language understanding.
arxiv情報
著者 | Zeyuan Wang,Qiang Zhang,Keyan Ding,Ming Qin,Xiang Zhuang,Xiaotong Li,Huajun Chen |
発行日 | 2023-10-05 02:45:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google