Difficulty in learning chirality for Transformer fed with SMILES

要約

タイトル: SMILESを用いたTransformerのキラリティの学習における困難度

要約:
– SMILESを用いた極めて多様な分子の表現学習に基づく記述子の開発が進展しているが、化学的構造をどのように理解するかについては、ほとんど研究が行われていない。
– 従って、代表的なNLPモデルであるTransformerを用いて、SMILESと化学的構造の学習進捗との関係を調べた。
– 結果は、Transformerは分子の部分構造を早く学ぶが、全体的な構造を理解するためには長期的な訓練が必要であることを示唆している。
– 更に、Transformerはキラリティを理解するために特に長期的な訓練を必要とし、対物異性体の誤解により翻訳精度が低下することがある。
– これらの結果は、化学におけるNLPモデルの理解を深めることが期待される。

要約(オリジナル)

Recent years have seen development of descriptor generation based on representation learning of extremely diverse molecules, especially those that apply natural language processing (NLP) models to SMILES, a literal representation of molecular structure. However, little research has been done on how these models understand chemical structure. To address this, we investigated the relationship between the learning progress of SMILES and chemical structure using a representative NLP model, the Transformer. The results suggest that while the Transformer learns partial structures of molecules quickly, it requires extended training to understand overall structures. Consistently, the accuracy of molecular property predictions using descriptors generated from models at different learning steps was similar from the beginning to the end of training. Furthermore, we found that the Transformer requires particularly long training to learn chirality and sometimes stagnates with low translation accuracy due to misunderstanding of enantiomers. These findings are expected to deepen understanding of NLP models in chemistry.

arxiv情報

著者 Yasuhiro Yoshikai,Tadahaya Mizuno,Shumpei Nemoto,Hiroyuki Kusuhara
発行日 2023-04-05 08:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, I.2.7, physics.chem-ph, q-bio.BM パーマリンク