Taking a Respite from Representation Learning for Molecular Property Prediction

要約

人工知能 (AI) は創薬に広く応用されており、その主な役割は分子特性の予測です。
分子表現学習における技術のブームにもかかわらず、分子特性予測の基礎となる基礎はまだ注意深く検討されていません。
この研究では、さまざまな分子表現を使用して代表的なモデルの集合に対して体系的な評価を実施しました。
一般的に使用されている MoleculeNet ベンチマーク データセットに加えて、ChEMBL から一連のオピオイド関連データセットと文献から 2 つの追加の活性データセットも組み立てました。
基本的な予測力を調べるために、モデルのパフォーマンスを評価するためにさまざまなサイズの一連の記述子データセットも組み立てました。
合計で、固定表現で 50,220 モデル、SMILES シーケンスで 4,200 モデル、分子グラフで 8,400 モデルを含む、62,820 モデルをトレーニングしました。
私たちは最初にデータセットのプロファイリングを実施し、オピオイド関連のデータセットにおけるアクティビティクリフの問題を強調しました。
次に、厳密なモデル評価を実施し、その中で重要な質問に対処しました。
さらに、足場間/足場内の化学空間一般化を調べたところ、アクティビティクリフが予測パフォーマンスに大きく影響する可能性があることがわかりました。
広範な実験と厳密な比較に基づいて、表現学習モデルは、ほとんどのデータセットで分子特性予測において依然として限られたパフォーマンスを示しています。
最後に、表現学習モデルが失敗する潜在的な原因を調査し、データセット サイズの重要性を強調しました。
この休息を取ることで、私たちは分子特性予測の基礎となる基礎について考えました。これを認識することで、この分野でより優れた AI 技術がもたらされることが期待されます。

要約(オリジナル)

Artificial intelligence (AI) has been widely applied in drug discovery with a major task as molecular property prediction. Despite booming techniques in molecular representation learning, fundamentals underlying molecular property prediction haven’t been carefully examined yet. In this study, we conducted a systematic evaluation on a collection of representative models using various molecular representations. In addition to the commonly used MoleculeNet benchmark datasets, we also assembled a suite of opioids-related datasets from ChEMBL and two additional activity datasets from literature. To interrogate the basic predictive power, we also assembled a series of descriptors datasets with varying sizes to evaluate the models’ performance. In total, we trained 62,820 models, including 50,220 models on fixed representations, 4,200 models on SMILES sequences and 8,400 models on molecular graphs. We first conducted dataset profiling and highlighted the activity-cliffs issue in the opioids-related datasets. We then conducted rigorous model evaluation and addressed key questions therein. Furthermore, we examined inter-/intra-scaffold chemical space generalization and found that activity cliffs significantly can impact prediction performance. Based on extensive experimentation and rigorous comparison, representation learning models still show limited performance in molecular property prediction in most datasets. Finally, we explored into potential causes why representation learning models fail and highlighted the importance of dataset size. By taking this respite, we reflected on the fundamentals underlying molecular property prediction, the awareness of which can, hopefully, bring better AI techniques in this field.

arxiv情報

著者 Jianyuan Deng,Zhibo Yang,Hehe Wang,Iwao Ojima,Dimitris Samaras,Fusheng Wang
発行日 2023-06-26 14:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM パーマリンク