要約
低分子リガンドをタンパク質結合部位にドッキングするための拡散学習法である DiffDock が最近導入されました。
結果には、より従来のドッキング手法との比較が含まれており、DiffDock が優れたパフォーマンスを示しました。
ここでは、Surflex-Dock メソッドを使用した完全自動ワークフローを採用して、従来のドッキング アプローチに対する公正なベースラインを生成します。
結果は、結合部位の位置が既知である一般的かつ予想される状況、および未知の結合部位の条件に対して生成されました。
既知の結合部位条件では、2.0 オングストローム RMSD での Surflex-Dock の成功率は DiffDock の成功率をはるかに上回りました (上位 1/上位 5 の成功率は、それぞれ 45/51% に対して 68/81% でした)。
既知の結合部位条件では、Glide は Surflex-Dock と同様の成功率 (67/73%) で実行され、AutoDock Vina および Gnina の結果もこのパターンに従いました。
未知の結合部位条件については、自動化された方法を使用して複数の結合ポケットを同定すると、Surflex-Dock の成功率は再び DiffDock の成功率を上回りましたが、その差はわずかに劣りました。
DiffDock は、2019 年以降の 363 のテスト ケース (PDBBind 2020 の 2%) を予測するために、トレーニング セットの学習に約 17,000 の共結晶構造 (PDBBind バージョン 2020、2019 年以前の構造の 98%) を利用しました。
DiffDock のパフォーマンスは、テスト セット ケースの半分以上について、トレーニング セット内にほぼ同一のタンパク質-リガンド複合体の近接ケースが存在することと密接に関連していました。
DiffDock は、近傍トレーニング ケースがないケースと比較して、近傍ケース (すべてのテスト ケースの 3 分の 2) で 40 パーセントの差を示しました。
DiffDock は学習プロセス中にテーブルルックアップの一種をエンコードし、意味のあるアプリケーションをその範囲外にレンダリングしたようです。
さらに、適切に実行される最新のドッキング ワークフローと競合するほどのパフォーマンスは得られません。
要約(オリジナル)
The diffusion learning method, DiffDock, for docking small-molecule ligands into protein binding sites was recently introduced. Results included comparisons to more conventional docking approaches, with DiffDock showing superior performance. Here, we employ a fully automatic workflow using the Surflex-Dock methods to generate a fair baseline for conventional docking approaches. Results were generated for the common and expected situation where a binding site location is known and also for the condition of an unknown binding site. For the known binding site condition, Surflex-Dock success rates at 2.0 Angstroms RMSD far exceeded those for DiffDock (Top-1/Top-5 success rates, respectively, were 68/81% compared with 45/51%). Glide performed with similar success rates (67/73%) to Surflex-Dock for the known binding site condition, and results for AutoDock Vina and Gnina followed this pattern. For the unknown binding site condition, using an automated method to identify multiple binding pockets, Surflex-Dock success rates again exceeded those of DiffDock, but by a somewhat lesser margin. DiffDock made use of roughly 17,000 co-crystal structures for learning (98% of PDBBind version 2020, pre-2019 structures) for a training set in order to predict on 363 test cases (2% of PDBBind 2020) from 2019 forward. DiffDock’s performance was inextricably linked with the presence of near-neighbor cases of close to identical protein-ligand complexes in the training set for over half of the test set cases. DiffDock exhibited a 40 percentage point difference on near-neighbor cases (two-thirds of all test cases) compared with cases with no near-neighbor training case. DiffDock has apparently encoded a type of table-lookup during its learning process, rendering meaningful applications beyond its reach. Further, it does not perform even close to competitively with a competently run modern docking workflow.
arxiv情報
著者 | Ajay N. Jain,Ann E. Cleves,W. Patrick Walters |
発行日 | 2024-12-09 18:37:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google