$\texttt{MiniMol}$: A Parameter-Efficient Foundation Model for Molecular Learning

要約

生物学的タスクでは、データは収集が難しい測定値から生成されるため、大量のデータが得られることはほとんどありません。
したがって、利用可能な大量のデータで基礎モデルを事前トレーニングしてから、データ量の少ない下流タスクに転送することが有望な方向性となります。
ただし、分子学習のための効果的な基礎モデルをどのように設計するかは依然として未解決の問題であり、既存のアプローチは通常、大きなパラメーター容量を持つモデルに焦点を当てています。
この研究では、1,000 万個のパラメータを持つ分子学習の基礎モデルである $\texttt{MiniMol}$ を提案します。
$\texttt{MiniMol}$ は、量子的性質と生物学的性質の両方の、まばらに定義された約 3,300 のグラフレベルおよびノー​​ドレベルのタスクの組み合わせで事前トレーニングされています。
事前トレーニング データセットには、約 600 万の分子と 5 億のラベルが含まれています。
タスク全体にわたる $\texttt{MiniMol}$ の一般化可能性を実証するために、Therapeutic Data Commons (TDC) ADMET グループの下流タスクで $\texttt{MiniMol}$ を評価し、17 のタスクにわたって以前の最先端の基盤モデルに比べて大幅な改善が見られました。
$\texttt{MiniMol}$ は、将来の研究のための公開およびオープンソースのモデルになります。

要約(オリジナル)

In biological tasks, data is rarely plentiful as it is generated from hard-to-gather measurements. Therefore, pre-training foundation models on large quantities of available data and then transfer to low-data downstream tasks is a promising direction. However, how to design effective foundation models for molecular learning remains an open question, with existing approaches typically focusing on models with large parameter capacities. In this work, we propose $\texttt{MiniMol}$, a foundational model for molecular learning with 10 million parameters. $\texttt{MiniMol}$ is pre-trained on a mix of roughly 3300 sparsely defined graph- and node-level tasks of both quantum and biological nature. The pre-training dataset includes approximately 6 million molecules and 500 million labels. To demonstrate the generalizability of $\texttt{MiniMol}$ across tasks, we evaluate it on downstream tasks from the Therapeutic Data Commons (TDC) ADMET group showing significant improvements over the prior state-of-the-art foundation model across 17 tasks. $\texttt{MiniMol}$ will be a public and open-sourced model for future research.

arxiv情報

著者 Kerstin Kläser,Błażej Banaszewski,Samuel Maddrell-Mander,Callum McLean,Luis Müller,Ali Parviz,Shenyang Huang,Andrew Fitzgibbon
発行日 2024-04-23 12:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク