Contrastive losses as generalized models of global epistasis

要約

タイトル:グローバルエピスタシスの一般化モデルとしての対比損失関数

要約:
– フィットネス関数は、バイオロジカルなシークエンスの多数の組み合わせから、関心のある特性に対応するものである。これらの多様な関数を実験データから推定することは、現代のタンパク質工学における中心的な課題の1つである。
– グローバルエピスタシスモデルは、観測されたデータからフィットネス関数を推定するための、効果的で物理的に基盤となるモデルのクラスである。これらのモデルは、疎な潜在関数が単調な非線形性によって変換され、測定可能なフィットネスを発生させると仮定している。
– この論文では、Bradley-Terry損失などの対比損失関数を最小化することが、グローバルエピスタシスに含まれる疎な潜在関数を抽出するためのシンプルで柔軟な手法であることを示す。
– フィットネス-エピスタシスの不確定性原理によって、グローバルエピスタシスモデルの非線形性は、疎な表現が不可能なフィットネス関数を生成することがあるため、平均二乗誤差(MSE)損失(一般的な手法)からの観測データによる学習が非効率である可能性があることを主張する。
– 対比損失関数は、MSEでは非効果的な状況でも、限られたデータからランキング関数を正確に推定することができることを示す。
– ベンチマークタスクに対して、対比損失関数が一貫して改善されたパフォーマンスをもたらすことで、その実用性を検証する。

要約(オリジナル)

Fitness functions map large combinatorial spaces of biological sequences to properties of interest. Inferring these multimodal functions from experimental data is a central task in modern protein engineering. Global epistasis models are an effective and physically-grounded class of models for estimating fitness functions from observed data. These models assume that a sparse latent function is transformed by a monotonic nonlinearity to emit measurable fitness. Here we demonstrate that minimizing contrastive loss functions, such as the Bradley-Terry loss, is a simple and flexible technique for extracting the sparse latent function implied by global epistasis. We argue by way of a fitness-epistasis uncertainty principle that the nonlinearities in global epistasis models can produce observed fitness functions that do not admit sparse representations, and thus may be inefficient to learn from observations when using a Mean Squared Error (MSE) loss (a common practice). We show that contrastive losses are able to accurately estimate a ranking function from limited data even in regimes where MSE is ineffective. We validate the practical utility of this insight by showing contrastive loss functions result in consistently improved performance on benchmark tasks.

arxiv情報

著者 David H. Brookes,Jakub Otwinowski,Sam Sinai
発行日 2023-05-08 00:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, q-bio.PE パーマリンク