Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model

要約

分子の構造や特性を解析するためにさまざまなモデルや計算ツールが提案されていますが、望ましい構造や特性をすべて満たす分子を生成することは依然として課題です。
ここでは、多重制約分子生成大規模言語モデル TMMG を紹介します。TSMMG は、学生に似ており、さまざまな小さなモデルやツール、つまり「教師」からの知識を組み込んでいます。
TMMGを訓練するために、これらの「教師」から分子知識を抽出することによってテキストと分子のペアの大規模なセットを構築し、さまざまなテキストプロンプトを通じて説明に適合する新しい分子を生成できるようにします。
我々は、TSMMGが、2つ、3つ、および4つの制約タスクにわたる複雑な自然言語で記述された特性要件を満たす分子の生成において顕著な性能を発揮し、平均分子妥当性が99%を超え、成功率が82.58%、68.03%であることを実験的に示しています。
、67.48% でした。
このモデルはゼロショット テストを通じて適応性も示し、これまでに遭遇したことのない特性の組み合わせを満たす分子を作成します。
経験的な検証によって確認されたように、アウトライン化されたプロンプトの範囲を超えて、さまざまな言語スタイルのテキスト入力を理解できます。
さらに、TSMMG の知識蒸留機能は小規模モデルの継続的な強化に貢献し、データセット構築への革新的なアプローチはデータの不足と品質の問題に効果的に対処し、TSMMG を創薬と材料科学の分野における有望なツールとして位置づけています。

要約(オリジナル)

While various models and computational tools have been proposed for structure and property analysis of molecules, generating molecules that conform to all desired structures and properties remains a challenge. Here, we introduce a multi-constraint molecular generation large language model, TSMMG, which, akin to a student, incorporates knowledge from various small models and tools, namely, the ‘teachers’. To train TSMMG, we construct a large set of text-molecule pairs by extracting molecular knowledge from these ‘teachers’, enabling it to generate novel molecules that conform to the descriptions through various text prompts. We experimentally show that TSMMG remarkably performs in generating molecules meeting complex, natural language-described property requirements across two-, three-, and four-constraint tasks, with an average molecular validity of over 99% and success ratio of 82.58%, 68.03%, and 67.48%, respectively. The model also exhibits adaptability through zero-shot testing, creating molecules that satisfy combinations of properties that have not been encountered. It can comprehend text inputs with various language styles, extending beyond the confines of outlined prompts, as confirmed through empirical validation. Additionally, the knowledge distillation feature of TSMMG contributes to the continuous enhancement of small models, while the innovative approach to dataset construction effectively addresses the issues of data scarcity and quality, which positions TSMMG as a promising tool in the domains of drug discovery and materials science.

arxiv情報

著者 Peng Zhou,Jianmin Wang,Chunyan Li,Zixu Wang,Yiping Liu,Siqi Sun,Jianxin Lin,Leyi Wei,Xibao Cai,Houtim Lai,Wei Liu,Longyue Wang,Xiangxiang Zeng
発行日 2024-07-10 09:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク