要約
製薬研究におけるデータ不足により、開発ではデータ駆動型の手法ではなく、労働集約的な試行錯誤のアプローチに依存するようになりました。
機械学習は解決策を提供しますが、既存のデータセットは小さくてノイズが多いことが多く、その有用性は限られています。
これに対処するために、私たちは、小さくノイズの多いデータセットを増強するために特別に設計された新しい生成モデルである、変分エンコード条件付き表形式敵対的生成ネットワーク (VECT GAN) を開発しました。
回帰モデルの開発前にデータが拡張されるパイプラインを導入し、これにより他の最先端の表形式生成モデルと比較してパフォーマンスが一貫して大幅に向上することを実証します。
私たちはこのパイプラインを 6 つの製薬データセットに適用し、医学的に望ましい粘膜付着特性を備えた新規ポリマーを開発し、それを作製して実験的に特性評価することで、その現実世界への応用可能性を強調しています。
さらに、薬物様分子の ChEMBL データベースでモデルを事前トレーニングし、知識の蒸留を活用して一般化可能性を高め、非常に一般的な製薬業務である低分子を含む製薬データセットですぐに使用できるようにしています。
私たちは、小さな表形式のデータセットを正規化するための合成データの力を実証し、製薬モデル開発の標準的な手法となる可能性を強調し、ChEMBL で事前トレーニングされた VECT GAN を含む私たちのメソッドを pip パッケージとして利用できるようにします。
要約(オリジナル)
Data scarcity in pharmaceutical research has led to reliance on labour-intensive trial and error approaches for development rather than data driven methods. While Machine Learning offers a solution, existing datasets are often small and noisy, limiting their utility. To address this, we developed a Variationally Encoded Conditional Tabular Generative Adversarial Network (VECT GAN), a novel generative model specifically designed for augmenting small, noisy datasets. We introduce a pipeline where data is augmented before regression model development and demonstrate that this consistently and significantly improves performance over other state of the art tabular generative models. We apply this pipeline across six pharmaceutical datasets, and highlight its real-world applicability by developing novel polymers with medically desirable mucoadhesive properties, which we made and experimentally characterised. Additionally, we pre-train the model on the ChEMBL database of drug-like molecules, leveraging knowledge distillation to enhance its generalisability, making it readily available for use on pharmaceutical datasets containing small molecules, which is an extremely common pharmaceutical task. We demonstrate the power of synthetic data for regularising small tabular datasets, highlighting its potential to become standard practice in pharmaceutical model development, and make our method, including VECT GAN pretrained on ChEMBL available as a pip package.
arxiv情報
著者 | Youssef Abdalla,Marrisa Taub,Eleanor Hilton,Priya Akkaraju,Alexander Milanovic,Mine Orlu,Abdul W. Basit,Michael T Cook,Tapabrata Chakraborty,David Shorthouse |
発行日 | 2025-01-15 18:23:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google