Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language

要約

活性および特性の予測モデルは、創薬および材料科学の中心的な主力製品ですが、現在、新しいタスクに合わせてトレーニングまたは微調整する必要があります。
科学言語モデルは、トレーニングや微調整を行わなくても、発表されているゼロショットおよび少数ショットの機能を通じて、このような低データのタスクに使用できます。
ただし、アクティビティ予測における予測品質は不足しています。
この研究では、タスクを説明するテキスト情報を理解することで、推論時に新しい予測タスクに適応できる新しいタイプのアクティビティ予測モデルを想定しています。
この目的を達成するために、化学言語入力と自然言語入力用の個別のモジュールと、大規模な生化学データベースからのデータに対する対照的な事前トレーニング目標を備えた新しいアーキテクチャを提案します。
広範な実験により、私たちの手法 CLAMP が創薬における少数ショット学習ベンチマークとゼロショット問題の予測パフォーマンスを向上させることを示しました。
私たちのメソッドの進歩は、モジュール化されたアーキテクチャと事前トレーニングの目的によるものだと考えています。

要約(オリジナル)

Activity and property prediction models are the central workhorses in drug discovery and materials sciences, but currently they have to be trained or fine-tuned for new tasks. Without training or fine-tuning, scientific language models could be used for such low-data tasks through their announced zero- and few-shot capabilities. However, their predictive quality at activity prediction is lacking. In this work, we envision a novel type of activity prediction model that is able to adapt to new prediction tasks at inference time, via understanding textual information describing the task. To this end, we propose a new architecture with separate modules for chemical and natural language inputs, and a contrastive pre-training objective on data from large biochemical databases. In extensive experiments, we show that our method CLAMP yields improved predictive performance on few-shot learning benchmarks and zero-shot problems in drug discovery. We attribute the advances of our method to the modularized architecture and to our pre-training objective.

arxiv情報

著者 Philipp Seidl,Andreu Vall,Sepp Hochreiter,Günter Klambauer
発行日 2023-06-16 09:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.BM, stat.ML パーマリンク