Automated patent extraction powers generative modeling in focused chemical spaces

要約

深層生成モデルは、逆分子設計のエキサイティングな手段として浮上しており、トレーニング アルゴリズムと分子表現の間の相互作用によって進歩がもたらされています。
材料科学や化学への適用における主な課題の 1 つは、特性ラベルを含む大規模なトレーニング データセットにアクセスできないことです。
公開された特許には、ジャーナルに掲載される前の新しい材料の最初の開示が含まれており、データ駆動型分子設計の分野では比較的未開発のままである膨大な科学知識の情報源です。
特許は特定の用途を保護することを目的として提出されるため、特許内の分子は用途クラスに弱くラベル付けされていると考えることができます。
さらに、米国特許商標庁 (USPTO) によって公開された特許はダウンロード可能で、機械可読なテキストと分子構造を備えています。
この研究では、最小限の人的介入で USPTO 特許デジタル ファイルから新規候補の生成までを行う自動パイプラインを開発することにより、特許データ ソースを使用してドメイン固有の生成モデルをトレーニングします。
私たちは、有機エレクトロニクスとチロシンキナーゼ阻害剤の 2 つのクラス内抽出データセットでアプローチをテストします。
次に、これらのクラス内データセットでトレーニングされた生成モデルの 2 つのカテゴリのタスク (分布学習とプロパティの最適化) に関する能力を評価し、長所と限界を特定し、実際にこれらを克服するために使用できる可能性のある説明と解決策を提案します。

要約(オリジナル)

Deep generative models have emerged as an exciting avenue for inverse molecular design, with progress coming from the interplay between training algorithms and molecular representations. One of the key challenges in their applicability to materials science and chemistry has been the lack of access to sizeable training datasets with property labels. Published patents contain the first disclosure of new materials prior to their publication in journals, and are a vast source of scientific knowledge that has remained relatively untapped in the field of data-driven molecular design. Because patents are filed seeking to protect specific uses, molecules in patents can be considered to be weakly labeled into application classes. Furthermore, patents published by the US Patent and Trademark Office (USPTO) are downloadable and have machine-readable text and molecular structures. In this work, we train domain-specific generative models using patent data sources by developing an automated pipeline to go from USPTO patent digital files to the generation of novel candidates with minimal human intervention. We test the approach on two in-class extracted datasets, one in organic electronics and another in tyrosine kinase inhibitors. We then evaluate the ability of generative models trained on these in-class datasets on two categories of tasks (distribution learning and property optimization), identify strengths and limitations, and suggest possible explanations and remedies that could be used to overcome these in practice.

arxiv情報

著者 Akshay Subramanian,Kevin P. Greenman,Alexis Gervaix,Tzuhsiung Yang,Rafael Gómez-Bombarelli
発行日 2023-07-24 14:28:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph パーマリンク