Is novelty predictable?

要約

機械学習ベースの設計は、特に小分子、材料、タンパク質の設計において科学分野で注目を集めており、医薬品の開発と製造、プラスチックの分解、炭素隔離に及ぶ社会的影響を及ぼしています。
機械学習を使用して新しいプロパティ値を達成するオブジェクトを設計するとき、人は根本的な課題に直面します。それは、失敗のリスクを合理的に制御する方法で、トレーニング データからモデルに抽出された現在の知識の最前線をどのように突破するかということです。
学習したモデルを外挿的に信頼しすぎると、無駄な設計をしてしまう可能性があります。
対照的に、外挿しなければ、新規性は見つかりません。
ここでは、これら 2 つの極端な点の間で有効なバランスをどのように取ることができるかを考えます。
私たちは特に新しい特性値を持つタンパク質の設計に焦点を当てていますが、議論の多くは機械学習ベースの設計をより広範に扱っています。

要約(オリジナル)

Machine learning-based design has gained traction in the sciences, most notably in the design of small molecules, materials, and proteins, with societal implications spanning drug development and manufacturing, plastic degradation, and carbon sequestration. When designing objects to achieve novel property values with machine learning, one faces a fundamental challenge: how to push past the frontier of current knowledge, distilled from the training data into the model, in a manner that rationally controls the risk of failure. If one trusts learned models too much in extrapolation, one is likely to design rubbish. In contrast, if one does not extrapolate, one cannot find novelty. Herein, we ponder how one might strike a useful balance between these two extremes. We focus in particular on designing proteins with novel property values, although much of our discussion addresses machine learning-based design more broadly.

arxiv情報

著者 Clara Fannjiang,Jennifer Listgarten
発行日 2023-06-01 16:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM, q-bio.QM パーマリンク