Training Compute-Optimal Protein Language Models

要約

私たちは、ベストプラクティスに関するガイダンスが限られている生物学研究において非常に興味深い分野である、タンパク質言語モデルの最適なトレーニングを探求します。
ほとんどのモデルは、パフォーマンスが頭打ちになるまで広範なコンピューティング リソースを使用してトレーニングされ、パフォーマンスとコンピューティング バジェットのバランスを取る効率的なコンピューティング フロンティアの最適化ではなく、主にモデル サイズを増やすことに重点を置いています。
私たちの調査は、9 億 3,900 万個のタンパク質配列からなる大規模なデータセットに基づいています。
モデルのサイズ、トレーニング トークンの数、目的の間の関係を調査するために、5 ~ 2,000 億の一意のトークンで 350 万から 107 億のパラメーターにわたる 300 以上のモデルをトレーニングしました。
まず、一般的に使用されている Uniref データベースを繰り返したときの、因果言語モデル (CLM) の収穫逓減の効果とマスク言語モデル~(MLM) の過学習の効果を観察しました。
これに対処するために、トレーニング セットにメタゲノムタンパク質配列を含めて多様性を高め、プラトー効果や過剰適合効果を回避しました。
次に、タンパク質配列データの特定の特性に合わせて調整された、Transformer 上の CLM および MLM のスケーリング則を取得しました。
第三に、CLM から MLM への転送スケーリング現象を観察し、推定された効果的に転送されたトークンに基づくスケーリング動作による転送の有効性をさらに実証します。
最後に、スケーリング則を検証するために、下流タスクで ESM-2 と PROGEN2 の大規模バージョンを比較します。これには、タンパク質生成の評価や構造および機能関連のタスクが含まれます。すべて、より少ない、または同等の事前トレーニング コンピューティング内で行われます。
予算。

要約(オリジナル)

We explore optimally training protein language models, an area of significant interest in biological research where guidance on best practices is limited. Most models are trained with extensive compute resources until performance gains plateau, focusing primarily on increasing model sizes rather than optimizing the efficient compute frontier that balances performance and compute budgets. Our investigation is grounded in a massive dataset consisting of 939 million protein sequences. We trained over 300 models ranging from 3.5 million to 10.7 billion parameters on 5 to 200 billion unique tokens, to investigate the relations between model sizes, training token numbers, and objectives. First, we observed the effect of diminishing returns for the Causal Language Model (CLM) and that of overfitting for the Masked Language Model~(MLM) when repeating the commonly used Uniref database. To address this, we included metagenomic protein sequences in the training set to increase the diversity and avoid the plateau or overfitting effects. Second, we obtained the scaling laws of CLM and MLM on Transformer, tailored to the specific characteristics of protein sequence data. Third, we observe a transfer scaling phenomenon from CLM to MLM, further demonstrating the effectiveness of transfer through scaling behaviors based on estimated Effectively Transferred Tokens. Finally, to validate our scaling laws, we compare the large-scale versions of ESM-2 and PROGEN2 on downstream tasks, encompassing evaluations of protein generation as well as structure- and function-related tasks, all within less or equivalent pre-training compute budgets.

arxiv情報

著者 Xingyi Cheng,Bo Chen,Pan Li,Jing Gong,Jie Tang,Le Song
発行日 2024-11-04 14:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク