PETA: Evaluating the Impact of Protein Transfer Learning with Sub-word Tokenization on Downstream Applications

要約

大規模なタンパク質言語モデルは、一次構造の根底にある進化情報を捉えることに優れており、タンパク質工学に大きな実用的価値を提供します。
自然言語モデルと比較して、タンパク質のアミノ酸配列はデータ量が小さく、組み合わせ空間が限られています。
事前トレーニングされたモデルを最適化するために適切な語彙サイズを選択することは極めて重要な問題です。
さらに、自然言語コミュニティには豊富なベンチマークや研究があるにもかかわらず、タンパク質言語モデルの品質を体系的に評価するための包括的なベンチマークが依然として不足しています。
これらの課題を考慮して、PETA は 3 つのトークン化方法の下で 14 の異なる語彙サイズで言語モデルをトレーニングしました。
潜在的なバイアスを軽減するために 2 つの分類ヘッドと 3 つのランダム シードを組み込んで、モデルの転移学習機能を評価するために 33 の多様な下流データセットに対して数千のテストを実施しました。
広範な実験により、語彙サイズが 50 ~ 200 の場合はモデルが最適化されますが、サイズが 800 を超えるとモデルの表現パフォーマンスに悪影響を及ぼすことが示されています。
コード、モデルの重み、データセットは https://github.com/ginnm/ProteinPretraining で入手できます。

要約(オリジナル)

Large protein language models are adept at capturing the underlying evolutionary information in primary structures, offering significant practical value for protein engineering. Compared to natural language models, protein amino acid sequences have a smaller data volume and a limited combinatorial space. Choosing an appropriate vocabulary size to optimize the pre-trained model is a pivotal issue. Moreover, despite the wealth of benchmarks and studies in the natural language community, there remains a lack of a comprehensive benchmark for systematically evaluating protein language model quality. Given these challenges, PETA trained language models with 14 different vocabulary sizes under three tokenization methods. It conducted thousands of tests on 33 diverse downstream datasets to assess the models’ transfer learning capabilities, incorporating two classification heads and three random seeds to mitigate potential biases. Extensive experiments indicate that vocabulary sizes between 50 and 200 optimize the model, whereas sizes exceeding 800 detrimentally affect the model’s representational performance. Our code, model weights and datasets are available at https://github.com/ginnm/ProteinPretraining.

arxiv情報

著者 Yang Tan,Mingchen Li,Pan Tan,Ziyi Zhou,Huiqun Yu,Guisheng Fan,Liang Hong
発行日 2023-10-26 14:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.BM パーマリンク