要約
正確なブラインドドッキングは、新たな生物学的ブレークスルーをもたらす可能性を秘めていますが、この期待を実現するには、ドッキング方法がプロテオーム全体にわたって十分に一般化する必要があります。
しかし、既存のベンチマークは一般化可能性を厳密に評価できません。
そこで、タンパク質のリガンド結合ドメインに基づく新しいベンチマークである DockGen を開発し、既存の機械学習ベースのドッキング モデルの一般化能力が非常に弱いことを示しました。
私たちは、ML ベースのドッキングのスケーリング則を注意深く分析し、データとモデルのサイズをスケーリングし、合成データ戦略を統合することによって、一般化能力を大幅に向上させ、新しい最先端のパフォーマンスを設定できることを示しています。
ベンチマーク全体で。
さらに、拡散モデルと信頼モデルの間の相互作用のみに依存し、拡散モデルの多重解像度生成プロセスを利用する新しいトレーニング パラダイムである信頼ブートストラップを提案します。
我々は、Confidence Bootstrapping が ML ベースのドッキング手法の、目に見えないタンパク質クラスにドッキングする能力を大幅に向上させ、正確で一般化可能なブラインド ドッキング手法にさらに近づくことを実証します。
要約(オリジナル)
Accurate blind docking has the potential to lead to new biological breakthroughs, but for this promise to be realized, docking methods must generalize well across the proteome. Existing benchmarks, however, fail to rigorously assess generalizability. Therefore, we develop DockGen, a new benchmark based on the ligand-binding domains of proteins, and we show that existing machine learning-based docking models have very weak generalization abilities. We carefully analyze the scaling laws of ML-based docking and show that, by scaling data and model size, as well as integrating synthetic data strategies, we are able to significantly increase the generalization capacity and set new state-of-the-art performance across benchmarks. Further, we propose Confidence Bootstrapping, a new training paradigm that solely relies on the interaction between diffusion and confidence models and exploits the multi-resolution generation process of diffusion models. We demonstrate that Confidence Bootstrapping significantly improves the ability of ML-based docking methods to dock to unseen protein classes, edging closer to accurate and generalizable blind docking methods.
arxiv情報
著者 | Gabriele Corso,Arthur Deng,Benjamin Fry,Nicholas Polizzi,Regina Barzilay,Tommi Jaakkola |
発行日 | 2024-02-28 15:15:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google