A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding

要約

タンパク質配列とその連続構造における自然言語との類似点は、タンパク質理解への大規模言語モデル (LLM) の適用にインスピレーションを与えました。
NLP における LLM の成功にもかかわらず、タンパク質配列の理解における LLM の有効性は未解決の疑問のままです。これは主にタンパク質配列と説明文を結び付けるデータセットが存在しないためです。
そこで研究者らは、タンパク質配列エンコーダーを事前に訓練された LLM と統合することで、LLM をタンパク質の理解に適応させようと試みました。
しかし、この適応により、「もともと NLP 用に設計された LLM は、言語の形式としてタンパク質配列を効果的に理解できるのか?」という根本的な疑問が生じます。
現在のデータセットは、タンパク質配列と対応するテキスト記述との間に直接の相関関係がないため、この疑問に対処するには不十分であり、タンパク質を効果的に理解するための LLM をトレーニングおよび評価する能力が制限されています。
このギャップを埋めるために、LLM の自己教師あり事前トレーニングと教師あり微調整 (SFT) をさらに強化して、タンパク質配列の理解能力を強化するために特別に設計されたデータセットである ProteinLMDataset を紹介します。
具体的には、ProteinLMDataset には、事前トレーニング用の 174 億 6,000 万のトークンと、SFT 用の 893,000 の命令が含まれています。
さらに、LLM のタンパク質理解能力を評価するための、手動で検証された 944 個の多肢選択式質問で構成される最初のベンチマーク データセットである ProteinLMBench を紹介します。
ProteinLMBench には、タンパク質関連の詳細と配列が複数の言語で組み込まれており、タンパク質理解における LLM の能力を評価するための新しい標準が確立されています。
ProteinLMDataset で事前トレーニングおよび微調整された大規模言語モデル InternLM2-7B は、ProteinLMBench で GPT-4 を上回り、最高の精度スコアを達成します。

要約(オリジナル)

The parallels between protein sequences and natural language in their sequential structures have inspired the application of large language models (LLMs) to protein understanding. Despite the success of LLMs in NLP, their effectiveness in comprehending protein sequences remains an open question, largely due to the absence of datasets linking protein sequences to descriptive text. Researchers have then attempted to adapt LLMs for protein understanding by integrating a protein sequence encoder with a pre-trained LLM. However, this adaptation raises a fundamental question: ‘Can LLMs, originally designed for NLP, effectively comprehend protein sequences as a form of language?’ Current datasets fall short in addressing this question due to the lack of a direct correlation between protein sequences and corresponding text descriptions, limiting the ability to train and evaluate LLMs for protein understanding effectively. To bridge this gap, we introduce ProteinLMDataset, a dataset specifically designed for further self-supervised pretraining and supervised fine-tuning (SFT) of LLMs to enhance their capability for protein sequence comprehension. Specifically, ProteinLMDataset includes 17.46 billion tokens for pretraining and 893,000 instructions for SFT. Additionally, we present ProteinLMBench, the first benchmark dataset consisting of 944 manually verified multiple-choice questions for assessing the protein understanding capabilities of LLMs. ProteinLMBench incorporates protein-related details and sequences in multiple languages, establishing a new standard for evaluating LLMs’ abilities in protein comprehension. The large language model InternLM2-7B, pretrained and fine-tuned on the ProteinLMDataset, outperforms GPT-4 on ProteinLMBench, achieving the highest accuracy score.

arxiv情報

著者 Yiqing Shen,Zan Chen,Michail Mamalakis,Luhan He,Haiyang Xia,Tianbin Li,Yanzhou Su,Junjun He,Yu Guang Wang
発行日 2024-07-08 16:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, q-bio.QM パーマリンク