Conformal Drug Property Prediction with Density Estimation under Covariate Shift

要約

創薬では、コストのかかるウェットラボ実験を使用して、計算モデルからの薬学的特性の予測を確認することが重要です。
したがって、信頼できる不確かさの推定値を取得することは、その後の実験検証のために薬物分子の優先順位を付けるために重要です。
等角予測 (CP) は、カバレッジを保証した分子特性の予測セットを作成するための有望なツールです。
ただし、CP の交換可能性の仮定は、創薬タスクにおける共変量シフトによってしばしば疑問視されます。ほとんどのデータセットには限定されたラベル付きデータが含まれており、分子が抽出される広大な化学空間を表していない可能性があります。
この制限に対処するために、トレーニング データとラベルなしデータの両方を活用するエネルギーベースのモデルと、分子セットの密度を評価するカーネル密度推定 (KDE) を採用する CoDrug と呼ばれる方法を提案します。
次に、推定された密度を使用して分子サンプルの重さを量り、予測セットを構築し、分布シフトを修正します。
さまざまな小分子創薬タスクにおける現実的な分布ドリフトを伴う広範な実験で、有効な予測セットを提供する CoDrug の能力と、新規創薬モデルから生じる分布シフトに対処する際の CoDrug の有用性を実証しました。
平均して、CoDrug を使用すると、共変量シフトを調整していない等角予測セットと比較して、カバレッジ ギャップを 35% 以上削減できます。

要約(オリジナル)

In drug discovery, it is vital to confirm the predictions of pharmaceutical properties from computational models using costly wet-lab experiments. Hence, obtaining reliable uncertainty estimates is crucial for prioritizing drug molecules for subsequent experimental validation. Conformal Prediction (CP) is a promising tool for creating such prediction sets for molecular properties with a coverage guarantee. However, the exchangeability assumption of CP is often challenged with covariate shift in drug discovery tasks: Most datasets contain limited labeled data, which may not be representative of the vast chemical space from which molecules are drawn. To address this limitation, we propose a method called CoDrug that employs an energy-based model leveraging both training data and unlabelled data, and Kernel Density Estimation (KDE) to assess the densities of a molecule set. The estimated densities are then used to weigh the molecule samples while building prediction sets and rectifying for distribution shift. In extensive experiments involving realistic distribution drifts in various small-molecule drug discovery tasks, we demonstrate the ability of CoDrug to provide valid prediction sets and its utility in addressing the distribution shift arising from de novo drug design models. On average, using CoDrug can reduce the coverage gap by over 35% when compared to conformal prediction sets not adjusted for covariate shift.

arxiv情報

著者 Siddhartha Laghuvarapu,Zhen Lin,Jimeng Sun
発行日 2023-10-18 15:17:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク