Robust Molecular Property Prediction via Densifying Scarce Labeled Data

要約

分子予測モデルの広く認識されている制限は、トレーニングデータで観察される構造への依存であり、分散化合物の一般化が不十分であることです。
しかし、創薬では、研究を進めるために最も重要な化合物はトレーニングセットを超えて存在することが多く、トレーニングデータへのバイアスが特に問題になります。
このミスマッチは、標準的な深い学習モデルが不安定で不正確な予測を生成する大幅な共変量シフトを導入します。
さらに、実験的検証の面倒で費用のかかる性質に起因するラベル付きデータの希少性は、信頼できる一般化を達成することの難しさをさらに悪化させます。
これらの制限に対処するために、無効なデータを活用して分散貢献(ID)と分散排出(OOD)データを補間するための新しいメタラーニングベースのアプローチを提案し、モデルがトレーニング分布を超えて一般化する方法をメタ学習することを可能にします。
かなりの共変量シフトを示す現実世界の挑戦的なデータセットに関する最先端の方法に対する大幅なパフォーマンスの向上を示します。

要約(オリジナル)

A widely recognized limitation of molecular prediction models is their reliance on structures observed in the training data, resulting in poor generalization to out-of-distribution compounds. Yet in drug discovery, the compounds most critical for advancing research often lie beyond the training set, making the bias toward the training data particularly problematic. This mismatch introduces substantial covariate shift, under which standard deep learning models produce unstable and inaccurate predictions. Furthermore, the scarcity of labeled data, stemming from the onerous and costly nature of experimental validation, further exacerbates the difficulty of achieving reliable generalization. To address these limitations, we propose a novel meta-learning-based approach that leverages unlabeled data to interpolate between in-distribution (ID) and out-of-distribution (OOD) data, enabling the model to meta-learn how to generalize beyond the training distribution. We demonstrate significant performance gains over state-of-the-art methods on challenging real-world datasets that exhibit substantial covariate shift.

arxiv情報

著者 Jina Kim,Jeffrey Willette,Bruno Andreis,Sung Ju Hwang
発行日 2025-06-13 15:27:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク