ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution

要約

指向性進化は、タンパク質工学における汎用性の高い技術であり、触媒活性や特定の標的への結合親和性など、目的の特性を最適化する配列を検索するために、突然変異誘発とスクリーニングを交互に繰り返すことで自然選択のプロセスを模倣します。
しかし、可能性のあるタンパク質の空間は実験室で網羅的に探索するには大きすぎ、また、機能的なタンパク質は広大な配列空間の中で不足しています。
機械学習 (ML) アプローチは、基礎となる物理学、化学、生物学的経路の詳細なモデルを構築することなく、タンパク質配列を機能にマッピングする方法を学習することで、指向性進化を加速できます。
これらの ML 手法には大きな可能性があるにもかかわらず、標的とする機能に最適な配列を特定する際には厳しい課題に直面しています。
これらの失敗は、タンパク質配列の高次元特徴表現を採用する一般的な手法と非効率な検索方法に起因すると考えられます。
これらの問題に対処するために、我々は、ODBOと呼ばれる、タンパク質指向性進化のための効率的で実験計画指向の閉ループ最適化フレームワークを提案します。これは、新しい低次元タンパク質コード化戦略と、外れ値検出による検索空間事前スクリーニングで強化されたベイズ最適化の組み合わせを採用します。

さらに、ML モデルをトレーニングするための実験サンプルの数を最小限に抑えるための初期サンプル選択戦略を設計します。
私たちは、目的の特性を持つ変異体を発見するための提案されたフレームワークの能力を実証する 4 つのタンパク質指向進化実験を実施し報告します。
私たちは、ODBO フレームワークが方向性進化の実験コストと時間コストを大幅に削減し、より広い文脈で適応実験計画のための強力なツールとしてさらに一般化できると期待しています。

要約(オリジナル)

Directed evolution is a versatile technique in protein engineering that mimics the process of natural selection by iteratively alternating between mutagenesis and screening in order to search for sequences that optimize a given property of interest, such as catalytic activity and binding affinity to a specified target. However, the space of possible proteins is too large to search exhaustively in the laboratory, and functional proteins are scarce in the vast sequence space. Machine learning (ML) approaches can accelerate directed evolution by learning to map protein sequences to functions without building a detailed model of the underlying physics, chemistry and biological pathways. Despite the great potentials held by these ML methods, they encounter severe challenges in identifying the most suitable sequences for a targeted function. These failures can be attributed to the common practice of adopting a high-dimensional feature representation for protein sequences and inefficient search methods. To address these issues, we propose an efficient, experimental design-oriented closed-loop optimization framework for protein directed evolution, termed ODBO, which employs a combination of novel low-dimensional protein encoding strategy and Bayesian optimization enhanced with search space prescreening via outlier detection. We further design an initial sample selection strategy to minimize the number of experimental samples for training ML models. We conduct and report four protein directed evolution experiments that substantiate the capability of the proposed framework for finding of the variants with properties of interest. We expect the ODBO framework to greatly reduce the experimental cost and time cost of directed evolution, and can be further generalized as a powerful tool for adaptive experimental design in a broader context.

arxiv情報

著者 Lixue Cheng,Ziyi Yang,Changyu Hsieh,Benben Liao,Shengyu Zhang
発行日 2024-05-01 15:20:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM, q-bio.QM パーマリンク