要約
基礎モデルは、自然言語処理やコンピュータ・ビジョンなどの機械学習分野で大きな変革をもたらしてきた。原子特性予測における同様の成功は、複数の化学ドメインにまたがる効果的なモデルを学習するという課題のため、限定的であった。この課題に対処するために、我々は、異なる化学ドメインからの複数のデータセットを同時に学習する教師あり事前学習戦略である、ジョイントマルチドメイン事前学習(JMP)を導入し、各データセットをマルチタスクフレームワーク内のユニークな事前学習タスクとして扱う。我々の結合訓練データセットは、OC20、OC22、ANI-1x、Transition-1xの$sim$120Mシステムからなる。以下のような多様な下流タスクとデータセットに対して微調整を行い、性能と汎化を評価する:QM9、rMD17、MatBench、QMOF、SPICE、MD22などです。JMPは、ゼロからのトレーニングに比べて平均59%の改善を示し、40のタスクのうち34のタスクにおいて、最先端と同等、またはそれを上回る結果を示しました。私たちの研究は、特に低データタスクにおいて、多様なデータを活用する事前学習ストラテジーが、化学ドメイン全体の物性予測を向上させる可能性を強調しています。詳細はhttps://nima.sh/jmp。
要約(オリジナル)
Foundation models have been transformational in machine learning fields such as natural language processing and computer vision. Similar success in atomic property prediction has been limited due to the challenges of training effective models across multiple chemical domains. To address this, we introduce Joint Multi-domain Pre-training (JMP), a supervised pre-training strategy that simultaneously trains on multiple datasets from different chemical domains, treating each dataset as a unique pre-training task within a multi-task framework. Our combined training dataset consists of $\sim$120M systems from OC20, OC22, ANI-1x, and Transition-1x. We evaluate performance and generalization by fine-tuning over a diverse set of downstream tasks and datasets including: QM9, rMD17, MatBench, QMOF, SPICE, and MD22. JMP demonstrates an average improvement of 59% over training from scratch, and matches or sets state-of-the-art on 34 out of 40 tasks. Our work highlights the potential of pre-training strategies that utilize diverse data to advance property prediction across chemical domains, especially for low-data tasks. Please visit https://nima.sh/jmp for further information.
arxiv情報
著者 | Nima Shoghi,Adeesh Kolluru,John R. Kitchin,Zachary W. Ulissi,C. Lawrence Zitnick,Brandon M. Wood |
発行日 | 2024-05-06 16:57:10+00:00 |
arxivサイト | arxiv_id(pdf) |