Improving Small Molecule Generation using Mutual Information Machine

要約

タイトル:相互情報量マシンを用いたスモール分子の生成の改善
要約:

– マシン学習を用いて、所望の特性をもった新規分子を制御的に生成することを目的とした、スモール分子の生成課題に焦点を当てる。
– MolMIMは、スモール分子ドラッグディスカバリーのための確率的なオートエンコーダであり、情報量マシン学習に基づく学習手法を用いて、情報豊富でクラスタ化された潜在空間を学習する。
– MolMIMは、可変長のSMILES文字列を固定長の表現に変換する。
– エンコーダ-デコーダモデルは、不正なサンプルの「穴」を含む表現を学ぶことができるため、MolMIMは、訓練手順の拡張版を提案し、密集した潜在空間を促進し、潜在コードのランダムな変動から有効な分子をサンプリングできるようにした。
– MolMIMを、可変サイズと固定サイズのエンコーダ-デコーダモデルと比較し、信頼性、ユニーク性、革新性の観点から優れた生成性能を示す。
– CMA-ESを使用し、潜在空間上での性質に基づく分子の最適化のためにMolMIMを利用することで、制約のある単一性質最適化タスクと複雑な多目的最適化タスクで、過去の成果よりも5%以上の改善を実現する。
– MolMIMの潜在表現が、類似した分子を潜在空間でクラスタ化することにより、強力な結果が得られるため、CMA-ESは、基準の最適化手法として使用されることが多い。
– MolMIMは、計算量が制限された環境でも有利であり、このような場合に魅力的なモデルであることを示している。

要約(オリジナル)

We address the task of controlled generation of small molecules, which entails finding novel molecules with desired properties under certain constraints (e.g., similarity to a reference molecule). Here we introduce MolMIM, a probabilistic auto-encoder for small molecule drug discovery that learns an informative and clustered latent space. MolMIM is trained with Mutual Information Machine (MIM) learning, and provides a fixed length representation of variable length SMILES strings. Since encoder-decoder models can learn representations with “holes” of invalid samples, here we propose a novel extension to the training procedure which promotes a dense latent space, and allows the model to sample valid molecules from random perturbations of latent codes. We provide a thorough comparison of MolMIM to several variable-size and fixed-size encoder-decoder models, demonstrating MolMIM’s superior generation as measured in terms of validity, uniqueness, and novelty. We then utilize CMA-ES, a naive black-box and gradient free search algorithm, over MolMIM’s latent space for the task of property guided molecule optimization. We achieve state-of-the-art results in several constrained single property optimization tasks as well as in the challenging task of multi-objective optimization, improving over previous success rate SOTA by more than 5\% . We attribute the strong results to MolMIM’s latent representation which clusters similar molecules in the latent space, whereas CMA-ES is often used as a baseline optimization method. We also demonstrate MolMIM to be favourable in a compute limited regime, making it an attractive model for such cases.

arxiv情報

著者 Danny Reidenbach,Micha Livne,Rajesh K. Ilango,Michelle Gill,Johnny Israeli
発行日 2023-03-29 21:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 92-08, cs.AI, cs.LG, I.2.7, q-bio.BM, q-bio.QM パーマリンク