要約
活性・物性予測モデルは、創薬や材料科学の中心的な主力製品であるが、現状では新しいタスクのためにトレーニングやファインチューニングを行うことが必要である。科学言語モデルは、トレーニングや微調整をしなくても、発表されているゼロショットや数ショットの機能によって、このような低データタスクに使用することができます。しかし、活動予測におけるその予測品質は不十分である。本研究では、タスクを記述するテキスト情報を理解することにより、推論時に新しい予測タスクに適応できる新しいタイプの活動予測モデルを想定する。このため、化学物質と自然言語の入力に対応する別々のモジュールを持つ新しいアーキテクチャを提案し、大規模な生化学データベースのデータを用いて対照的な事前学習を行う。広範な実験により、我々の手法CLAMPは、数ショット学習ベンチマークや創薬におけるゼロショット問題において、予測性能を向上させることを示す。本手法の進歩は、モジュール化されたアーキテクチャと事前学習目的によるものであると考えられる。
要約(オリジナル)
Activity and property prediction models are the central workhorses in drug discovery and materials sciences, but currently they have to be trained or fine-tuned for new tasks. Without training or fine-tuning, scientific language models could be used for such low-data tasks through their announced zero- and few-shot capabilities. However, their predictive quality at activity prediction is lacking. In this work, we envision a novel type of activity prediction model that is able to adapt to new prediction tasks at inference time, via understanding textual information describing the task. To this end, we propose a new architecture with separate modules for chemical and natural language inputs, and a contrastive pre-training objective on data from large biochemical databases. In extensive experiments, we show that our method CLAMP yields improved predictive performance on few-shot learning benchmarks and zero-shot problems in drug discovery. We attribute the advances of our method to the modularized architecture and to our pre-training objective.
arxiv情報
著者 | Philipp Seidl,Andreu Vall,Sepp Hochreiter,Günter Klambauer |
発行日 | 2023-03-06 18:49:09+00:00 |
arxivサイト | arxiv_id(pdf) |