Exploring zero-shot structure-based protein fitness prediction

要約

事前に訓練された機械学習モデルを使用して、タンパク質配列の変化のフィットネス結果についてゼロショット予測を行う機能により、多くの実用的なアプリケーションが可能になります。
このようなモデルは、追加のラベル付きデータなしで、遺伝的変異解釈やタンパク質エンジニアリングなどの下流タスクに適用できます。
有能なタンパク質構造予測ツールの出現により、より多くのより事前に計算された予測構造が利用できるようになり、強力な構造ベースのフィットネス予測モデルが生まれました。
実験を通じて、構造ベースのモデルのいくつかのモデリングの選択と、下流のフィットネス予測に対する効果を評価します。
ゼロショットフィットネス予測モデルは、タンパク質の無秩序な領域内のフィットネス景観を評価するのに苦労する可能性があります。
タンパク質構造をフィットネスアッセイに一致させることの重要性を確認し、無秩序な領域の予測された構造が誤解を招き、予測パフォーマンスに影響を与える可能性があることがわかります。
最後に、Proteingymの置換ベンチマーク上の追加構造ベースのモデルを評価し、単純なマルチモーダルアンサンブルが強力なベースラインであることを示します。

要約(オリジナル)

The ability to make zero-shot predictions about the fitness consequences of protein sequence changes with pre-trained machine learning models enables many practical applications. Such models can be applied for downstream tasks like genetic variant interpretation and protein engineering without additional labeled data. The advent of capable protein structure prediction tools has led to the availability of orders of magnitude more precomputed predicted structures, giving rise to powerful structure-based fitness prediction models. Through our experiments, we assess several modeling choices for structure-based models and their effects on downstream fitness prediction. Zero-shot fitness prediction models can struggle to assess the fitness landscape within disordered regions of proteins, those that lack a fixed 3D structure. We confirm the importance of matching protein structures to fitness assays and find that predicted structures for disordered regions can be misleading and affect predictive performance. Lastly, we evaluate an additional structure-based model on the ProteinGym substitution benchmark and show that simple multi-modal ensembles are strong baselines.

arxiv情報

著者 Arnav Sharma,Anthony Gitter
発行日 2025-04-23 17:01:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM, q-bio.QM パーマリンク