Transformers for molecular property prediction: Lessons learned from the past five years

要約

分子特性予測 (MPP) は、創薬、作物保護、環境科学にとって不可欠です。
過去数十年にわたり、統計モデルや古典的な機械学習における単純な物理的および化学的特性や分子フィンガープリントの使用から、高度な深層学習アプローチに至るまで、さまざまな計算技術が開発されてきました。
このレビューでは、MPP の変圧器モデルの採用に関する現在の研究から洞察を抽出することを目的としています。
現在利用可能なモデルを分析し、MPP の変圧器モデルをトレーニングおよび微調整する際に生じる重要な質問を調査します。
これらの質問には、事前トレーニング データの選択と規模、最適なアーキテクチャの選択、および有望な事前トレーニングの目標が含まれます。
私たちの分析は、現在の研究ではまだカバーされていない領域を浮き彫りにし、この分野の理解を深めるためのさらなる探求を促します。
さらに、標準化されたデータ分割と堅牢な統計分析の必要性を強調し、さまざまなモデルを比較する際の課題にも取り組みます。

要約(オリジナル)

Molecular Property Prediction (MPP) is vital for drug discovery, crop protection, and environmental science. Over the last decades, diverse computational techniques have been developed, from using simple physical and chemical properties and molecular fingerprints in statistical models and classical machine learning to advanced deep learning approaches. In this review, we aim to distill insights from current research on employing transformer models for MPP. We analyze the currently available models and explore key questions that arise when training and fine-tuning a transformer model for MPP. These questions encompass the choice and scale of the pre-training data, optimal architecture selections, and promising pre-training objectives. Our analysis highlights areas not yet covered in current research, inviting further exploration to enhance the field’s understanding. Additionally, we address the challenges in comparing different models, emphasizing the need for standardized data splitting and robust statistical analysis.

arxiv情報

著者 Afnan Sultan,Jochen Sieg,Miriam Mathea,Andrea Volkamer
発行日 2024-04-05 09:05:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.QM パーマリンク