Omics-driven hybrid dynamic modeling of bioprocesses with uncertainty estimation

要約

この研究では、機械学習ツールを統合してマルチスケールの生物学的システムの動的モデリングを容易にするオミックス主導のモデリング パイプラインを紹介します。
ランダム フォレストと順列特徴の重要度は、オミクス データセットをマイニングするために提案されており、動的モデリングのための特徴の選択と次元削減をガイドします。
連続的かつ微分可能な機械学習関数をトレーニングして、縮小オミクス特徴セットを動的モデルの主要コンポーネントにリンクさせることができ、結果としてハイブリッド モデルが得られます。
概念の実証として、このフレームワークを $\textit{Saccharomyces cerevisiae}$ の高次元プロテオミクス データセットに適用します。
細胞増殖と相関する主要な細胞内タンパク質を特定した後、ターゲットを絞った動的実験が設計され、ガウス過程を使用して主要なモデルパラメータが選択されたタンパク質の関数として取得されます。
このアプローチは、ハイブリッド モデルの予測の不確実性を推定しなが​​ら、さまざまなプロテオーム プロファイルの下での酵母株の動的挙動を捕捉します。
概要を示したモデリング フレームワークは、より高度なマルチスケールの生物学的システムのためにオミクス データの追加レイヤーを統合したり、より大きなデータセットを処理するための代替の機械学習手法を採用したりするなど、他のシナリオにも適応できます。
全体として、この研究は、システム生物学およびバイオプロセス工学におけるマルチスケールの動的モデリングに情報を提供するためにオミクスデータを活用する戦略の概要を示しています。

要約(オリジナル)

This work presents an omics-driven modeling pipeline that integrates machine-learning tools to facilitate the dynamic modeling of multiscale biological systems. Random forests and permutation feature importance are proposed to mine omics datasets, guiding feature selection and dimensionality reduction for dynamic modeling. Continuous and differentiable machine-learning functions can be trained to link the reduced omics feature set to key components of the dynamic model, resulting in a hybrid model. As proof of concept, we apply this framework to a high-dimensional proteomics dataset of $\textit{Saccharomyces cerevisiae}$. After identifying key intracellular proteins that correlate with cell growth, targeted dynamic experiments are designed, and key model parameters are captured as functions of the selected proteins using Gaussian processes. This approach captures the dynamic behavior of yeast strains under varying proteome profiles while estimating the uncertainty in the hybrid model’s predictions. The outlined modeling framework is adaptable to other scenarios, such as integrating additional layers of omics data for more advanced multiscale biological systems, or employing alternative machine-learning methods to handle larger datasets. Overall, this study outlines a strategy for leveraging omics data to inform multiscale dynamic modeling in systems biology and bioprocess engineering.

arxiv情報

著者 Sebastián Espinel-Ríos,José Montaño López,José L. Avalos
発行日 2024-10-24 15:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク