Pre-Training on Large-Scale Generated Docking Conformations with HelixDock to Unlock the Potential of Protein-ligand Structure Prediction Models

要約

タンパク質-リガンド構造の予測は、創薬において不可欠なタスクであり、小分子(リガンド)と標的タンパク質(受容体)の間の結合相互作用を予測します。
最近の進歩には、タンパク質-リガンド構造予測の精度を向上させるために深層学習技術が組み込まれています。
それにもかかわらず、ドッキング構造の実験的検証には依然としてコストがかかり、トレーニングデータが限られているため、これらの深層学習ベースの手法の一般化可能性について懸念が生じます。
この研究では、従来の物理ベースのドッキング ツールによって生成された大規模なドッキング コンフォメーションで事前トレーニングし、実験的に検証された限られたセットの受容体 – リガンド複合体を微調整することにより、タンパク質 – リガンドを取得できることを示します。
性能に優れた構造予測モデル。
具体的には、このプロセスにはタンパク質とリガンドのペアリングのための 1 億個のドッキング立体構造の生成が含まれ、この作業には CPU コア日でおよそ 100 万日を費やしました。
提案されたモデル HelixDock は、事前トレーニング段階で物理ベースのドッキング ツールによってカプセル化された物理知識を取得することを目的としています。
HelixDock は、物理ベースと深層学習ベースの両方のベースラインに対して厳密にベンチマークされており、結合確認の予測における卓越した精度と堅牢な移行性を実証しています。
さらに、私たちの調査では、事前トレーニングされたタンパク質-リガンド構造予測モデルを支配するスケーリング則が明らかになり、モデルパラメーターと事前トレーニングデータの量が増加するにつれてパフォーマンスが一貫して向上することが示されました。
さらに、HelixDock をいくつかの創薬関連タスクに適用して、その実用性を検証しました。
HelixDock は、クロスドッキングと構造ベースの仮想スクリーニング ベンチマークの両方で優れた機能を実証します。

要約(オリジナル)

Protein-ligand structure prediction is an essential task in drug discovery, predicting the binding interactions between small molecules (ligands) and target proteins (receptors). Recent advances have incorporated deep learning techniques to improve the accuracy of protein-ligand structure prediction. Nevertheless, the experimental validation of docking conformations remains costly, it raises concerns regarding the generalizability of these deep learning-based methods due to the limited training data. In this work, we show that by pre-training on a large-scale docking conformation generated by traditional physics-based docking tools and then fine-tuning with a limited set of experimentally validated receptor-ligand complexes, we can obtain a protein-ligand structure prediction model with outstanding performance. Specifically, this process involved the generation of 100 million docking conformations for protein-ligand pairings, an endeavor consuming roughly 1 million CPU core days. The proposed model, HelixDock, aims to acquire the physical knowledge encapsulated by the physics-based docking tools during the pre-training phase. HelixDock has been rigorously benchmarked against both physics-based and deep learning-based baselines, demonstrating its exceptional precision and robust transferability in predicting binding confirmation. In addition, our investigation reveals the scaling laws governing pre-trained protein-ligand structure prediction models, indicating a consistent enhancement in performance with increases in model parameters and the volume of pre-training data. Moreover, we applied HelixDock to several drug discovery-related tasks to validate its practical utility. HelixDock demonstrates outstanding capabilities on both cross-docking and structure-based virtual screening benchmarks.

arxiv情報

著者 Lihang Liu,Shanzhuo Zhang,Donglong He,Xianbin Ye,Jingbo Zhou,Xiaonan Zhang,Yaoyao Jiang,Weiming Diao,Hang Yin,Hua Chai,Fan Wang,Jingzhou He,Liang Zheng,Yonghui Li,Xiaomin Fang
発行日 2024-05-20 14:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG, q-bio.BM パーマリンク