Reliable algorithm selection for machine learning-guided design

要約

機械学習誘導設計または設計アルゴリズムのアルゴリズムは、機械学習ベースの予測を使用して、望ましいプロパティ値を持つ新しいオブジェクトを提案します。
たとえば、治療ターゲットへの結合親和性の高い新しいタンパク質を設計するために、新しい設計タスクを考えると、設計アルゴリズムを選択し、関係するハイパーパラメーターと予測および/または生成モデルを指定する必要があります。
結果として生じる設計が成功するように、これらの決定をどのように行うことができますか?
このペーパーでは、デザインアルゴリズムの選択方法を提案します。これは、ユーザーが指定した成功基準を満たすデザインラベルの分布を生成するデザインアルゴリズムを選択することを目的としています。たとえば、デザインのラベルの少なくとも10%がしきい値を超えています。
これは、設計の予測されたプロパティ値を保有されたラベル付きデータと組み合わせて、予測駆動の推論からの手法に基づいて、さまざまな設計アルゴリズムによって生成されるラベル分布の確実に予測される特性を確実に予測することによって行われます。
この方法は、設計データ分布とラベル付きデータ分布の間の密度比がわかっている場合、成功したラベル分布(またはnullセットが存在しない場合)を生成するデザインアルゴリズムを返す可能性が高いことで保証されます。
既知または推定密度比のいずれかの設定で、シミュレートされたタンパク質およびRNA設計タスクにおける方法の有効性を示します。

要約(オリジナル)

Algorithms for machine learning-guided design, or design algorithms, use machine learning-based predictions to propose novel objects with desired property values. Given a new design task — for example, to design novel proteins with high binding affinity to a therapeutic target — one must choose a design algorithm and specify any hyperparameters and predictive and/or generative models involved. How can these decisions be made such that the resulting designs are successful? This paper proposes a method for design algorithm selection, which aims to select design algorithms that will produce a distribution of design labels satisfying a user-specified success criterion — for example, that at least ten percent of designs’ labels exceed a threshold. It does so by combining designs’ predicted property values with held-out labeled data to reliably forecast characteristics of the label distributions produced by different design algorithms, building upon techniques from prediction-powered inference. The method is guaranteed with high probability to return design algorithms that yield successful label distributions (or the null set if none exist), if the density ratios between the design and labeled data distributions are known. We demonstrate the method’s effectiveness in simulated protein and RNA design tasks, in settings with either known or estimated density ratios.

arxiv情報

著者 Clara Fannjiang,Ji Won Park
発行日 2025-03-26 17:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM, stat.ML パーマリンク