Contrastive losses as generalized models of global epistasis

要約

フィットネス関数は、生物学的配列の大規模な組み合わせ空間と関心のある特性を対応付ける。実験データからこれらのマルチモーダルな関数を推定することは、現代のタンパク質工学における中心的な課題である。グローバルエピスタシスモデルは、観測データからフィットネス関数を推定するための効果的で物理的根拠のあるモデルのクラスである。これらのモデルは、疎な潜在関数が単調な非線形性によって変換され、測定可能なフィットネスを発すると仮定している。ここでは、Bradley-Terry損失のような対照的な損失関数を最小化することが、大域的エピスタシスが暗示する疎な潜在関数を抽出するための簡単で柔軟な手法であることを示す。我々はフィットネス・エピスタシスの不確定性原理により、グローバル・エピスタシスモデルにおける非線形性は、スパース表現を認めない観測フィットネス関数を生成する可能性があり、従って、平均二乗誤差(MSE)損失(一般的な手法)を使用する場合、観測から学習するのは非効率的である可能性があることを論じる。我々は、平均二乗誤差(MSE)損失が有効でない場合でも、対照的損失が限られたデータからランキング関数を正確に推定できることを示す。対照的な損失関数がベンチマークタスクにおいて一貫して改善された性能をもたらすことを示すことで、この洞察の実用的な有用性を検証する。

要約(オリジナル)

Fitness functions map large combinatorial spaces of biological sequences to properties of interest. Inferring these multimodal functions from experimental data is a central task in modern protein engineering. Global epistasis models are an effective and physically-grounded class of models for estimating fitness functions from observed data. These models assume that a sparse latent function is transformed by a monotonic nonlinearity to emit measurable fitness. Here we demonstrate that minimizing contrastive loss functions, such as the Bradley-Terry loss, is a simple and flexible technique for extracting the sparse latent function implied by global epistasis. We argue by way of a fitness-epistasis uncertainty principle that the nonlinearities in global epistasis models can produce observed fitness functions that do not admit sparse representations, and thus may be inefficient to learn from observations when using a Mean Squared Error (MSE) loss (a common practice). We show that contrastive losses are able to accurately estimate a ranking function from limited data even in regimes where MSE is ineffective. We validate the practical utility of this insight by showing contrastive loss functions result in consistently improved performance on benchmark tasks.

arxiv情報

著者 David H. Brookes,Jakub Otwinowski,Sam Sinai
発行日 2023-12-01 18:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, q-bio.PE パーマリンク