Domain-Agnostic Molecular Generation with Self-feedback

要約

望ましい特性を持つ分子の生成は非常に人気があり、科学者が分子構造を設計する方法に革命をもたらし、化学および薬剤の設計に貴重なサポートを提供しています。
しかし、分子生成における言語モデルの可能性にもかかわらず、構文的または化学的に欠陥のある分子の生成、狭い領域への焦点、注釈付きデータや外部分子の不足による多様で方向性のある実行可能な分子の作成の制限など、多くの課題に直面しています。
データベース。
これらの課題に取り組むために、分子生成用に特別に調整された事前トレーニングされた分子言語モデルである MolGen を導入します。
MolGen は、1 億を超える分子 SELFIES の再構築を通じて、構造的および文法的な深い洞察を内部に取り込みます。
これは、ドメインに依存しない分子プレフィックス調整によってさらに強化され、多様なドメインにわたる堅牢な知識伝達を促進します。
重要なのは、私たちのセルフフィードバック パラダイムはモデルを「分子幻覚」から遠ざけ、モデルの推定確率と現実世界の化学的選好性との整合性を確保することです。
有名なベンチマークに関する広範な実験により、ペナルティ付きの logP、QED、分子ドッキングなどの特性における MolGen の最適化能力が強調されています。
追加の分析により、分子分布を正確に捕捉し、複雑な構造パターンを識別し、化学空間を効率的に探索する能力に優れていることが確認されました。
コードは https://github.com/zjunlp/MolGen で入手できます。

要約(オリジナル)

The generation of molecules with desired properties has gained tremendous popularity, revolutionizing the way scientists design molecular structures and providing valuable support for chemical and drug design. However, despite the potential of language models in molecule generation, they face numerous challenges such as the generation of syntactically or chemically flawed molecules, narrow domain focus, and limitations in creating diverse and directionally feasible molecules due to a dearth of annotated data or external molecular databases. To tackle these challenges, we introduce MolGen, a pre-trained molecular language model tailored specifically for molecule generation. Through the reconstruction of over 100 million molecular SELFIES, MolGen internalizes profound structural and grammatical insights. This is further enhanced by domain-agnostic molecular prefix tuning, fostering robust knowledge transfer across diverse domains. Importantly, our self-feedback paradigm steers the model away from “molecular hallucinations”, ensuring alignment between the model’s estimated probabilities and real-world chemical preferences. Extensive experiments on well-known benchmarks underscore MolGen’s optimization capabilities in properties such as penalized logP, QED, and molecular docking. Additional analyses affirm its proficiency in accurately capturing molecule distributions, discerning intricate structural patterns, and efficiently exploring the chemical space. Code is available at https://github.com/zjunlp/MolGen.

arxiv情報

著者 Yin Fang,Ningyu Zhang,Zhuo Chen,Lingbing Guo,Xiaohui Fan,Huajun Chen
発行日 2023-10-02 15:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG パーマリンク