SELFormer: Molecular Representation Learning via SELFIES Language Models

要約

タイトル:SELFormer:SELFIES言語モデルを用いた分子表現学習

要約:
– 医薬品探索や材料科学など、広範な研究分野において、化学の巨大なスペースの自動化された計算的解析が重要である。
– 近年、表現学習技術が複雑なデータのコンパクトで情報の豊富な数値表現を生成することを主な目的として採用されている。
– 分子表現を効率的に学習するものの一つは、化学物の文字列記法を自然言語処理(NLP)アルゴリズムを介して処理する方法である。
– 迄今まで提案されてきた方法の大部分がこの目的のためにSMILES記法を使用している。しかし、SMILESは有効性や堅牢性に関する多くの問題があるため、モデルがデータに隠された知識を効果的に明らかにすることができない可能性がある。
– 本研究では、SELFIESという100%有効でコンパクトで表現力豊かな表記法を入力として使用するトランスフォーマーアーキテクチャに基づく化学言語モデルであるSELFormerを提案している。
– SELFormerは、多様な分子特性予測タスクのために事前学習された2百万種類の薬物様化合物を使用して微調整されます。
– モデルのパフォーマンス評価により、SELFormerは、分子の水和可能性や薬物の副作用などの予測タスクにおいて、グラフ学習ベースのアプローチやSMILESベースの化学言語モデルを含むすべての競合する方法を上回っていることが明らかになった。
– SELFormerで学習した分子表現を次元削減を介して視覚化した結果、事前学習モデルでも構造的特性が異なる分子を区別できたことが示された。
– SELFormerとそのデータセットと事前学習モデルをプログラムツールとして共有することで、化学言語モデリングのSELFIES表記法を使用する利点が示され、望む特徴を持つ新しい薬剤候補の設計や発見の新しい可能性が開かれる。

要約(オリジナル)

Automated computational analysis of the vast chemical space is critical for numerous fields of research such as drug discovery and material science. Representation learning techniques have recently been employed with the primary objective of generating compact and informative numerical expressions of complex data. One approach to efficiently learn molecular representations is processing string-based notations of chemicals via natural language processing (NLP) algorithms. Majority of the methods proposed so far utilize SMILES notations for this purpose; however, SMILES is associated with numerous problems related to validity and robustness, which may prevent the model from effectively uncovering the knowledge hidden in the data. In this study, we propose SELFormer, a transformer architecture-based chemical language model that utilizes a 100% valid, compact and expressive notation, SELFIES, as input, in order to learn flexible and high-quality molecular representations. SELFormer is pre-trained on two million drug-like compounds and fine-tuned for diverse molecular property prediction tasks. Our performance evaluation has revealed that, SELFormer outperforms all competing methods, including graph learning-based approaches and SMILES-based chemical language models, on predicting aqueous solubility of molecules and adverse drug reactions. We also visualized molecular representations learned by SELFormer via dimensionality reduction, which indicated that even the pre-trained model can discriminate molecules with differing structural properties. We shared SELFormer as a programmatic tool, together with its datasets and pre-trained models. Overall, our research demonstrates the benefit of using the SELFIES notations in the context of chemical language modeling and opens up new possibilities for the design and discovery of novel drug candidates with desired features.

arxiv情報

著者 Atakan Yüksel,Erva Ulusoy,Atabey Ünlü,Gamze Deniz,Tunca Doğan
発行日 2023-04-10 15:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68T07, cs.LG, I.2.1, q-bio.QM パーマリンク