Generalization within in silico screening

要約

インシリコスクリーニングでは、予測モデルを使用して、実験的検証のためにライブラリーから好ましい特性を持つ化合物のバッチを選択します。
従来の学習パラダイムとは異なり、このコンテキストでの成功は、予測セット全体ではなく、選択された化合物のサブセットに対する予測モデルのパフォーマンスによって測定されます。
学習理論を拡張することで、選択ポリシーの選択性が一般化に大きな影響を与える可能性があり、予測された陽性を排他的に選択する場合や希少なプロパティをターゲットにする場合にエラーが発生するリスクが高くなる可能性があることを示します。
私たちの分析は、これらの課題を軽減する方法を示唆しています。
バッチ内の望ましい結果の一部を予測するモデルの能力を考慮すると、一般化が著しく強化できることを示します。
スクリーニングの主な目的は必ずしも各化合物のラベルを個別に特定することではなく、望ましい化合物が豊富に含まれるバッチを組み立てることであるため、これは有望です。
私たちの理論的洞察は、さまざまなタスク、アーキテクチャ、およびスクリーニング シナリオにわたって経験的に検証され、その適用可能性が強調されています。

要約(オリジナル)

In silico screening uses predictive models to select a batch of compounds with favorable properties from a library for experimental validation. Unlike conventional learning paradigms, success in this context is measured by the performance of the predictive model on the selected subset of compounds rather than the entire set of predictions. By extending learning theory, we show that the selectivity of the selection policy can significantly impact generalization, with a higher risk of errors occurring when exclusively selecting predicted positives and when targeting rare properties. Our analysis suggests a way to mitigate these challenges. We show that generalization can be markedly enhanced when considering a model’s ability to predict the fraction of desired outcomes in a batch. This is promising, as the primary aim of screening is not necessarily to pinpoint the label of each compound individually, but rather to assemble a batch enriched for desirable compounds. Our theoretical insights are empirically validated across diverse tasks, architectures, and screening scenarios, underscoring their applicability.

arxiv情報

著者 Andreas Loukas,Pan Kessel,Vladimir Gligorijevic,Richard Bonneau
発行日 2024-07-23 16:37:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク