Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models

要約

オープンワールドのテスト データセットは配布外 (OOD) サンプルと混合されることが多く、展開されたモデルは正確な予測を行うのに苦労します。
従来の検出方法は、同じ表現学習モデルを共有しているため、OOD 検出と分布内 (ID) 分類のパフォーマンスをトレードオフする必要があります。
この研究では、入力分子と再構成されたグラフの間の類似性を比較する補助拡散モデルベースのフレームワークを採用することにより、OOD 分子を検出することを提案します。
ID トレーニング サンプルの再構築に対する生成バイアスにより、OOD 分子の類似性スコアは検出を容易にするためにはるかに低くなります。
概念的には単純ですが、この標準的なフレームワークを実際の検出アプリケーションに拡張するには、2 つの重要な課題によって依然として制限があります。
まず、ユークリッド距離に基づく一般的な類似性メトリクスでは、複雑なグラフ構造が考慮されていません。
第 2 に、反復的なノイズ除去ステップを含む生成モデルは、特に膨大な薬物プールで実行する場合に時間がかかります。
これらの課題に対処するために、私たちの研究は、PGR-MOOD と呼ばれる、分子 OOD 検出のためのプロトタイプ グラフ再構成のアプローチの先駆者であり、次の 3 つの革新に基づいています。 i) 入力分子と再構成された分子の一致度を包括的に定量化する効果的なメトリクス。
ii) ID に準拠しているが OOD から離れたプロトタイプのグラフを構築するための創造的なグラフ ジェネレーター。
iii) テストサンプルと事前に構築されたプロトタイプグラフ間の類似性を比較し、すべての新しい分子の生成プロセスを省略するための効率的でスケーラブルな OOD 検出器。
当社の優位性を実証するために、10 のベンチマーク データセットと 6 つのベースラインに関する広範な実験が実施されました。

要約(オリジナル)

The open-world test dataset is often mixed with out-of-distribution (OOD) samples, where the deployed models will struggle to make accurate predictions. Traditional detection methods need to trade off OOD detection and in-distribution (ID) classification performance since they share the same representation learning model. In this work, we propose to detect OOD molecules by adopting an auxiliary diffusion model-based framework, which compares similarities between input molecules and reconstructed graphs. Due to the generative bias towards reconstructing ID training samples, the similarity scores of OOD molecules will be much lower to facilitate detection. Although it is conceptually simple, extending this vanilla framework to practical detection applications is still limited by two significant challenges. First, the popular similarity metrics based on Euclidian distance fail to consider the complex graph structure. Second, the generative model involving iterative denoising steps is time-consuming especially when it runs on the enormous pool of drugs. To address these challenges, our research pioneers an approach of Prototypical Graph Reconstruction for Molecular OOD Detection, dubbed as PGR-MOOD and hinges on three innovations: i) An effective metric to comprehensively quantify the matching degree of input and reconstructed molecules; ii) A creative graph generator to construct prototypical graphs that are in line with ID but away from OOD; iii) An efficient and scalable OOD detector to compare the similarity between test samples and pre-constructed prototypical graphs and omit the generative process on every new molecule. Extensive experiments on ten benchmark datasets and six baselines are conducted to demonstrate our superiority.

arxiv情報

著者 Xu Shen,Yili Wang,Kaixiong Zhou,Shirui Pan,Xin Wang
発行日 2024-04-24 03:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク