Data-Error Scaling in Machine Learning on Natural Discrete Combinatorial Mutation-prone Sets: Case Studies on Peptides and Small Molecules

要約

私たちは、タンパク質や有機小分子など、突然変異を起こしやすい離散組み合わせ空間でトレーニングされた機械学習 (ML) モデルのデータエラー スケーリング動作の傾向を調査します。
私たちは、計算によって生成されたさまざまな量のトレーニング データを使用して、カーネル リッジ回帰マシンをトレーニングし、評価しました。
私たちの合成データセットは、i) 多体理論に基づく 2 つの単純な関数で構成されます。
ii) タンパク質と変異誘発ペプチド間の結合エネルギーの推定値。
iii) 2 つの 6 重原子構造グラフの溶媒和エネルギー。
一般的なデータ誤差のスケーリングとは対照的に、私たちの結果は、学習中の不連続な単調な位相遷移を示し、トレーニング データの特定のしきい値でのテスト誤差の急速な低下として観察されました。
私たちは、飽和減衰と漸近減衰と呼ぶ 2 つの学習体制を観察し、それらがトレーニング セットに含まれる複雑さのレベル (つまり、突然変異の数) によって条件付けされることを発見しました。
このクラスの問題のトレーニング中に、予測がキャリブレーション プロットで採用された ML モデルによってクラスター化されたことを示します。
さらに、学習曲線 (LC) を正規化するための代替戦略と変異体ベースのシャッフルの概念を紹介します。
この研究は、化学的特性やタンパク質の表現型予測など、変異誘発可能な離散空間での機械学習に影響を与え、統計学習理論の概念の基本的な理解を向上させます。

要約(オリジナル)

We investigate trends in the data-error scaling behavior of machine learning (ML) models trained on discrete combinatorial spaces that are prone-to-mutation, such as proteins or organic small molecules. We trained and evaluated kernel ridge regression machines using variable amounts of computationally generated training data. Our synthetic datasets comprise i) two na\’ive functions based on many-body theory; ii) binding energy estimates between a protein and a mutagenised peptide; and iii) solvation energies of two 6-heavy atom structural graphs. In contrast to typical data-error scaling, our results showed discontinuous monotonic phase transitions during learning, observed as rapid drops in the test error at particular thresholds of training data. We observed two learning regimes, which we call saturated and asymptotic decay, and found that they are conditioned by the level of complexity (i.e. number of mutations) enclosed in the training set. We show that during training on this class of problems, the predictions were clustered by the ML models employed in the calibration plots. Furthermore, we present an alternative strategy to normalize learning curves (LCs) and the concept of mutant based shuffling. This work has implications for machine learning on mutagenisable discrete spaces such as chemical properties or protein phenotype prediction, and improves basic understanding of concepts in statistical learning theory.

arxiv情報

著者 Vanni Doffini,O. Anatole von Lilienfeld,Michael A. Nash
発行日 2024-05-08 16:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph パーマリンク