Boolean matrix logic programming for active learning of gene functions in genome-scale metabolic network models

要約

研究を自律的に推進する技術は計算科学発見で顕著ですが、合成生物学は有用な目的のための新しい生物学的システムの設計と構築に焦点を当てた科学分野です。
ここでは、ロジックベースの機械学習技術を適用して、細胞工学を促進し、生物学的発見を推進することを目指しています。
ゲノムスケールの代謝ネットワークモデル (GEM) と呼ばれる代謝プロセスの包括的なデータベースは、標的化合物の生産を最適化するための細胞工学戦略を評価するためによく使用されます。
ただし、予測されたホストの動作が GEM によって常に正しく記述されるわけではなく、多くの場合、モデル内のエラーが原因です。
GEM 内の複雑な遺伝的相互作用を学習するという作業には、計算上および経験上の課題が伴います。
これらに対処するために、ブール行列を利用して大規模な論理プログラムを評価する、ブール行列ロジック プログラミング (BMLP) と呼ばれる新しいアプローチについて説明します。
新しいシステム $BMLP_{active}$ を導入します。このシステムは、アクティブ ラーニングを通じて有益な実験をガイドすることで、ゲノム仮説空間を効率的に探索します。
サブシンボリック手法とは対照的に、$BMLP_{active}$ は、データログ ロジック プログラムを使用して、広く受け入れられている細菌宿主の最先端の GEM を、解釈可能な論理表現でエンコードします。
特に、$BMLP_{active}$ は、ランダム実験よりも少ないトレーニング例で遺伝子ペア間の相互作用を首尾よく学習でき、実験計画空間の増加を克服できます。
$BMLP_{active}$ を使用すると、代謝モデルを迅速に最適化し、有用な化合物を生成するための生物学的システムを確実に設計することができます。
これは、微生物工学用の自動運転ラボを作成するための現実的なアプローチを提供します。

要約(オリジナル)

Techniques to autonomously drive research have been prominent in Computational Scientific Discovery, while Synthetic Biology is a field of science that focuses on designing and constructing new biological systems for useful purposes. Here we seek to apply logic-based machine learning techniques to facilitate cellular engineering and drive biological discovery. Comprehensive databases of metabolic processes called genome-scale metabolic network models (GEMs) are often used to evaluate cellular engineering strategies to optimise target compound production. However, predicted host behaviours are not always correctly described by GEMs, often due to errors in the models. The task of learning the intricate genetic interactions within GEMs presents computational and empirical challenges. To address these, we describe a novel approach called Boolean Matrix Logic Programming (BMLP) by leveraging boolean matrices to evaluate large logic programs. We introduce a new system, $BMLP_{active}$, which efficiently explores the genomic hypothesis space by guiding informative experimentation through active learning. In contrast to sub-symbolic methods, $BMLP_{active}$ encodes a state-of-the-art GEM of a widely accepted bacterial host in an interpretable and logical representation using datalog logic programs. Notably, $BMLP_{active}$ can successfully learn the interaction between a gene pair with fewer training examples than random experimentation, overcoming the increase in experimental design space. $BMLP_{active}$ enables rapid optimisation of metabolic models to reliably engineer biological systems for producing useful compounds. It offers a realistic approach to creating a self-driving lab for microbial engineering.

arxiv情報

著者 Lun Ai,Stephen H. Muggleton,Shi-Shun Liang,Geoff S. Baldwin
発行日 2024-05-20 13:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.MN パーマリンク