Text-Guided Molecule Generation with Diffusion Language Model

要約

テキストガイドによる分子生成は、特定のテキストの説明に一致するように分子を生成するタスクです。
最近、既存の SMILES ベースの分子生成法のほとんどは自己回帰アーキテクチャに依存しています。
この研究では、拡散言語モデルを使用したテキスト誘導分子生成 (TGM-DLM) を提案します。これは、拡散モデルを活用して自己回帰法の制限に対処する新しいアプローチです。
TGM-DLM は、2 段階の拡散生成プロセスを使用して、SMILES 文字列内のトークン埋め込みを集合的かつ反復的に更新します。
最初のフェーズでは、テキストの説明に基づいてランダム ノイズから埋め込みを最適化し、2 番目のフェーズでは無効な SMILES 文字列を修正して有効な分子表現を形成します。
追加のデータ リソースを必要とせずに、TGM-DLM が自己回帰モデルである MolT5-Base よりも優れたパフォーマンスを発揮することを実証します。
私たちの発見は、特定の特性を持つ一貫した正確な分子の生成における TGM-DLM の顕著な有効性を強調し、創薬および関連科学領域に新たな道を切り開きます。
コードは https://github.com/Deno-V/tgm-dlm でリリースされます。

要約(オリジナル)

Text-guided molecule generation is a task where molecules are generated to match specific textual descriptions. Recently, most existing SMILES-based molecule generation methods rely on an autoregressive architecture. In this work, we propose the Text-Guided Molecule Generation with Diffusion Language Model (TGM-DLM), a novel approach that leverages diffusion models to address the limitations of autoregressive methods. TGM-DLM updates token embeddings within the SMILES string collectively and iteratively, using a two-phase diffusion generation process. The first phase optimizes embeddings from random noise, guided by the text description, while the second phase corrects invalid SMILES strings to form valid molecular representations. We demonstrate that TGM-DLM outperforms MolT5-Base, an autoregressive model, without the need for additional data resources. Our findings underscore the remarkable effectiveness of TGM-DLM in generating coherent and precise molecules with specific properties, opening new avenues in drug discovery and related scientific domains. Code will be released at: https://github.com/Deno-V/tgm-dlm.

arxiv情報

著者 Haisong Gong,Qiang Liu,Shu Wu,Liang Wang
発行日 2024-02-20 14:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG, q-bio.BM パーマリンク