MAMMAL — Molecular Aligned Multi-Modal Architecture and Language

要約

創薬は一般的に複数のステップから構成され、病気の病因の鍵となる標的タンパク質を特定すること、この標的と相互作用することで病気の症状を防いだり治したりできることを検証すること、この標的と相互作用する低分子化合物や生物学的治療薬を発見すること、そして必要とされる特性の複雑なランドスケープを通して候補分子を最適化することなどが含まれる。創薬関連のタスクは、潜在的に相互作用する複数の実体を考慮しながら予測・生成することが多く、一般的なAIモデルには難題となっている。この目的のために、我々はMAMMAL(Molecular Aligned Multi-Modal Architecture and Language)を紹介する。MAMMALは、タンパク質、低分子、遺伝子を含む多様なモダリティにわたる大規模な生物学的データセット(20億サンプル)から学習する、汎用性の高いマルチタスク・マルチアライン基礎モデルを作成するために適用した手法である。我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を紹介する。異なるモダリティやエンティティタイプを入力や出力として組み合わせることができる。このモデルは、トークンとスカラーの組み合わせを扱い、低分子やタンパク質の生成、特性予測、トランスクリプトームラボテストの予測を可能にする。典型的な創薬パイプラインの異なるステップにまたがる11の多様な下流タスクでモデルを評価したところ、9タスクで新たなSOTAに到達し、2タスクではSOTAに匹敵した。この性能は、テーラードアーキテクチャを使用して達成された本来のSOTA性能とは対照的に、すべてのタスクに対応する統一アーキテクチャを使用しながら達成された。 モデルコードと事前学習された重みは、https://github.com/BiomedSciAI/biomed-multi-alignment と https://huggingface.co/ibm/biomed.omics.bl.sm.ma-ted-458m で公開されている。

要約(オリジナル)

Drug discovery typically consists of multiple steps, including identifying a target protein key to a disease’s etiology, validating that interacting with this target could prevent symptoms or cure the disease, discovering a small molecule or biologic therapeutic to interact with it, and optimizing the candidate molecule through a complex landscape of required properties. Drug discovery related tasks often involve prediction and generation while considering multiple entities that potentially interact, which poses a challenge for typical AI models. For this purpose we present MAMMAL – Molecular Aligned Multi-Modal Architecture and Language – a method that we applied to create a versatile multi-task multi-align foundation model that learns from large-scale biological datasets (2 billion samples) across diverse modalities, including proteins, small molecules, and genes. We introduce a prompt syntax that supports a wide range of classification, regression, and generation tasks. It allows combining different modalities and entity types as inputs and/or outputs. Our model handles combinations of tokens and scalars and enables the generation of small molecules and proteins, property prediction, and transcriptomic lab test predictions. We evaluated the model on 11 diverse downstream tasks spanning different steps within a typical drug discovery pipeline, where it reaches new SOTA in 9 tasks and is comparable to SOTA in 2 tasks. This performance is achieved while using a unified architecture serving all tasks, in contrast to the original SOTA performance achieved using tailored architectures. The model code and pretrained weights are publicly available at https://github.com/BiomedSciAI/biomed-multi-alignment and https://huggingface.co/ibm/biomed.omics.bl.sm.ma-ted-458m.

arxiv情報

著者 Yoel Shoshan,Moshiko Raboh,Michal Ozery-Flato,Vadim Ratner,Alex Golts,Jeffrey K. Weber,Ella Barkan,Simona Rabinovici-Cohen,Sagi Polaczek,Ido Amos,Ben Shapira,Liam Hazan,Matan Ninio,Sivan Ravid,Michael M. Danziger,Joseph A. Morrone,Parthasarathy Suryanarayanan,Michal Rosen-Zvi,Efrat Hexter
発行日 2024-11-01 16:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク