Domain-Agnostic Molecular Generation with Self-feedback

要約

所望の特性を持つ分子の生成は、科学者が分子構造を設計する方法に革命をもたらし、化学および薬物設計に貴重なサポートを提供することで、絶大な人気を博している。しかしながら、分子生成における言語モデルの可能性にもかかわらず、構文的または化学的に欠陥のある分子の生成、狭いドメイン・フォーカス、アノテーション・データや外部分子データベースの不足による多様で方向性のある実現可能な分子の生成の限界など、多くの課題に直面している。このため、分子生成に特化した事前学習済み分子言語モデルMolGenを紹介する。MolGenは、1億以上の分子SELFIESを再構築することにより、本質的な構造的・文法的洞察を獲得し、同時に、ドメインにとらわれない分子接頭辞のチューニングにより、異なるドメイン間の知識伝達を容易にする。さらに、自己フィードバックパラダイムを提示することで、事前に訓練されたモデルを、望ましい特性を持つ分子を生成するという究極の目標に沿うように促す。有名なベンチマークを用いた広範な実験により、MolGenの最適化能力は、ペナルティ付きlogP、QED、および分子ドッキング特性を包含していることが確認された。さらに分析を進めると、MolGenは分子の分布を正確に捉え、その構造特性を暗黙的に学習し、化学空間を効率的に探索できることがわかる。訓練済みのモデル、コード、データセットは、今後の研究のために、https://github.com/zjunlp/MolGen。

要約(オリジナル)

The generation of molecules with desired properties has gained tremendous popularity, revolutionizing the way scientists design molecular structures and providing valuable support for chemical and drug design. However, despite the potential of language models in molecule generation, they face numerous challenges such as the generation of syntactically or chemically flawed molecules, narrow domain focus, and limitations in creating diverse and directionally feasible molecules due to a dearth of annotated data or external molecular databases. To this end, we introduce MolGen, a pre-trained molecular language model tailored specifically for molecule generation. MolGen acquires intrinsic structural and grammatical insights by reconstructing over 100 million molecular SELFIES, while facilitating knowledge transfer between different domains through domain-agnostic molecular prefix tuning. Moreover, we present a self-feedback paradigm that inspires the pre-trained model to align with the ultimate goal of producing molecules with desirable properties. Extensive experiments on well-known benchmarks confirm MolGen’s optimization capabilities, encompassing penalized logP, QED, and molecular docking properties. Further analysis shows that MolGen can accurately capture molecule distributions, implicitly learn their structural characteristics, and efficiently explore chemical space. The pre-trained model, codes, and datasets are publicly available for future research at https://github.com/zjunlp/MolGen.

arxiv情報

著者 Yin Fang,Ningyu Zhang,Zhuo Chen,Xiaohui Fan,Huajun Chen
発行日 2023-09-01 07:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG パーマリンク