要約
近年、非常に多様な分子の表現学習に基づく記述子生成の開発が見られます。特に、自然言語処理 (NLP) モデルを分子構造の文字通りの表現である SMILES に適用するものです。
しかし、これらのモデルが化学構造をどのように理解しているかについての研究はほとんど行われていません。
これに対処するために、代表的なNLPモデルであるTransformerを使用して、SMILESの学習進行と化学構造との関係を調査しました。
この結果は、Transformer が分子の部分構造をすばやく学習する一方で、全体の構造を理解するには長時間のトレーニングが必要であることを示唆しています。
一貫して、さまざまな学習ステップでモデルから生成された記述子を使用した分子特性予測の精度は、トレーニングの最初から最後まで同様でした。
さらに、トランスフォーマーは、キラリティーを学習するために特に長いトレーニングを必要とし、エナンチオマーの誤解により低い翻訳精度で停滞することがあることがわかりました。
これらの発見は、化学における NLP モデルの理解を深めることが期待されます。
要約(オリジナル)
Recent years have seen development of descriptor generation based on representation learning of extremely diverse molecules, especially those that apply natural language processing (NLP) models to SMILES, a literal representation of molecular structure. However, little research has been done on how these models understand chemical structure. To address this, we investigated the relationship between the learning progress of SMILES and chemical structure using a representative NLP model, the Transformer. The results suggest that while the Transformer learns partial structures of molecules quickly, it requires extended training to understand overall structures. Consistently, the accuracy of molecular property predictions using descriptors generated from models at different learning steps was similar from the beginning to the end of training. Furthermore, we found that the Transformer requires particularly long training to learn chirality and sometimes stagnates with low translation accuracy due to misunderstanding of enantiomers. These findings are expected to deepen understanding of NLP models in chemistry.
arxiv情報
著者 | Yasuhiro Yoshikai,Tadahaya Mizuno,Shumpei Nemoto,Hiroyuki Kusuhara |
発行日 | 2023-03-21 04:47:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google