LLamol: A Dynamic Multi-Conditional Generative Transformer for De Novo Molecular Design


生成モデルは、自然言語処理 (NLP) において大きな可能性を示しており、General Pretrained Transformer (GPT) モデルに見られるように、分子の設計にも応用できることがわかっています。
潜在的に電気活性な化合物を探して有機化学空間を探索するためのツールを開発するという私たちの取り組みの中で、LLama 2 アーキテクチャに基づく単一の新しい生成変換モデル「LLamol」を紹介します。
結果として得られるモデルが、最大 4 つの条件による単一条件および複数条件の有機分子生成を適切に処理することを実証しますが、さらに多くの条件が可能です。
このモデルは、要求に応じて 3 つの数値シーケンスおよび/または 1 つのトークン シーケンスを生成プロセスに柔軟に組み込みながら、SMILES 表記で有効な分子構造を生成します。
詳細には、トークン シーケンスを個別に、または数値プロパティと組み合わせてコンディショニングに利用するモデルの機能を紹介します。これにより、LLamol は、新しいプロパティで簡単に拡張できる、de novo 分子設計のための強力なツールになります。


Generative models have demonstrated substantial promise in Natural Language Processing (NLP) and have found application in designing molecules, as seen in General Pretrained Transformer (GPT) models. In our efforts to develop such a tool for exploring the organic chemical space in search of potentially electro-active compounds, we present ‘LLamol’, a single novel generative transformer model based on the LLama 2 architecture, which was trained on a 13M superset of organic compounds drawn from diverse public sources. To allow for a maximum flexibility in usage and robustness in view of potentially incomplete data, we introduce ‘Stochastic Context Learning’ as a new training procedure. We demonstrate that the resulting model adeptly handles single- and multi-conditional organic molecule generation with up to four conditions, yet more are possible. The model generates valid molecular structures in SMILES notation while flexibly incorporating three numerical and/or one token sequence into the generative process, just as requested. The generated compounds are very satisfactory in all scenarios tested. In detail, we showcase the model’s capability to utilize token sequences for conditioning, either individually or in combination with numerical properties, making LLamol a potent tool for de novo molecule design, easily expandable with new properties.


著者 Niklas Dobberstein,Astrid Maass,Jan Hamaekers
発行日 2023-11-24 10:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.chem-ph パーマリンク