A Systematic Survey of Chemical Pre-trained Models

要約

タイトル:化学プレトレーニングモデルの系統的な調査

要約:
– ディープラーニングは、分子の表現を学習する上で極めて重要である、分子物性予測から薬剤設計に至るまでの各種生化学的アプリケーションにおいて、驚くほどの成功を収めてきました。
– しかし、スクラッチからDNNを訓練することは、現実世界で入手するのが高価なラベル付き分子を必要とするため、しばしば困難である 。
– この問題を緩和するために、大規模な無標識の分子データベースを使用してDNNをプレトレーニングした、分子プレトレーニングモデル(CPM)に大きな努力が注がれています。
– この高まる分野に対する体系的なレビューがまだ不足している。本論文では、CPMの現在の進捗状況をまとめた最初の調査を発表する。
– まず、スクラッチから分子表現モデルを訓練することの限界を強調し、CPMの研究を促す。次に、分子ディスクリプタ、エンコーダアーキテクチャ、プレトレーニング戦略、およびアプリケーションなど、いくつかの重要な観点から、このトピックの最近の進歩を体系的にレビューする。
– 将来の研究に向けたチャレンジと有望なアプローチを強調し、機械学習と科学界の両方に有用なリソースを提供します。

要約(オリジナル)

Deep learning has achieved remarkable success in learning representations for molecules, which is crucial for various biochemical applications, ranging from property prediction to drug design. However, training Deep Neural Networks (DNNs) from scratch often requires abundant labeled molecules, which are expensive to acquire in the real world. To alleviate this issue, tremendous efforts have been devoted to Molecular Pre-trained Models (CPMs), where DNNs are pre-trained using large-scale unlabeled molecular databases and then fine-tuned over specific downstream tasks. Despite the prosperity, there lacks a systematic review of this fast-growing field. In this paper, we present the first survey that summarizes the current progress of CPMs. We first highlight the limitations of training molecular representation models from scratch to motivate CPM studies. Next, we systematically review recent advances on this topic from several key perspectives, including molecular descriptors, encoder architectures, pre-training strategies, and applications. We also highlight the challenges and promising avenues for future research, providing a useful resource for both machine learning and scientific communities.

arxiv情報

著者 Jun Xia,Yanqiao Zhu,Yuanqi Du,Stan Z. Li
発行日 2023-04-27 03:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク