Context-Guided Diffusion for Out-of-Distribution Molecular and Protein Design

要約

生成モデルは、新しい分子治療薬や材料の発見における重要なステップを加速する可能性を秘めています。
拡散モデルは最近、強力なアプローチとして登場し、無条件のサンプル生成と、データ駆動型のガイダンスによるトレーニング ドメイン内での条件付き生成に優れています。
しかし、トレーニング データを超えた高値領域から確実にサンプリングすることは未解決の課題のままであり、現在の手法では主に拡散プロセス自体を変更することに重点が置かれています。
この論文では、ラベルなしデータと平滑性制約を活用して誘導拡散モデルの分布外一般化を改善する単純なプラグアンドプレイ手法であるコンテキスト誘導拡散 (CGD) を開発します。
私たちは、このアプローチが、創薬、材料科学、タンパク質設計にわたるアプリケーションによる連続的、離散的、グラフ構造の拡散プロセスなど、さまざまな設定にわたって大幅なパフォーマンスの向上につながることを実証します。

要約(オリジナル)

Generative models have the potential to accelerate key steps in the discovery of novel molecular therapeutics and materials. Diffusion models have recently emerged as a powerful approach, excelling at unconditional sample generation and, with data-driven guidance, conditional generation within their training domain. Reliably sampling from high-value regions beyond the training data, however, remains an open challenge — with current methods predominantly focusing on modifying the diffusion process itself. In this paper, we develop context-guided diffusion (CGD), a simple plug-and-play method that leverages unlabeled data and smoothness constraints to improve the out-of-distribution generalization of guided diffusion models. We demonstrate that this approach leads to substantial performance gains across various settings, including continuous, discrete, and graph-structured diffusion processes with applications across drug discovery, materials science, and protein design.

arxiv情報

著者 Leo Klarner,Tim G. J. Rudner,Garrett M. Morris,Charlotte M. Deane,Yee Whye Teh
発行日 2024-07-16 17:34:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM, stat.ML パーマリンク