SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity Prediction

要約

薬物標的親和性 (DTA) の正確な予測は、初期段階の創薬において非常に重要であり、特定の標的と効果的に相互作用し、その活性を調節できる薬物の同定を容易にします。
ウェット実験は依然として最も信頼性の高い方法ですが、時間とリソースを大量に消費するため、利用可能なデータが限られ、深層学習アプローチに課題をもたらします。
既存の手法は、データ不足の問題に適切に対処せずに、利用可能な DTA データに基づく手法の開発に主に焦点を当ててきました。
この課題を克服するために、我々は、3 つのシンプルでありながら非常に効果的な戦略を組み込んだ SSM-DTA フレームワークを紹介します。 (1) DTA 予測と、薬物ターゲットのペアデータを使用したマスク言語モデリング (MLM) を組み合わせたマルチタスク トレーニング アプローチ。
(2) 大規模な不対分子とタンパク質を活用して薬物とターゲットの表現を強化する半教師ありトレーニング方法。
このアプローチは、事前トレーニングで分子またはタンパク質のみを使用した以前の方法とは異なります。
(3) 軽量のクロスアテンション モジュールの統合により、薬物とターゲット間の相互作用が改善され、予測精度がさらに向上します。
BindingDB、DAVIS、KIBA などのベンチマーク データセットでの広範な実験を通じて、当社のフレームワークの優れたパフォーマンスを実証しました。
さらに、特定の薬物標的結合活性、仮想スクリーニング実験、薬物特徴の視覚化、現実世界への応用に関するケーススタディを実施しており、これらすべてが私たちの研究の大きな可能性を示しています。
結論として、私たちが提案する SSM-DTA フレームワークは、DTA 予測におけるデータ制限の課題に対処し、有望な結果をもたらし、より効率的で正確な創薬プロセスへの道を開きます。
私たちのコードは $\href{https://github.com/QizhiPei/SSM-DTA}{Github}$ で入手できます。

要約(オリジナル)

Accurate prediction of Drug-Target Affinity (DTA) is of vital importance in early-stage drug discovery, facilitating the identification of drugs that can effectively interact with specific targets and regulate their activities. While wet experiments remain the most reliable method, they are time-consuming and resource-intensive, resulting in limited data availability that poses challenges for deep learning approaches. Existing methods have primarily focused on developing techniques based on the available DTA data, without adequately addressing the data scarcity issue. To overcome this challenge, we present the SSM-DTA framework, which incorporates three simple yet highly effective strategies: (1) A multi-task training approach that combines DTA prediction with masked language modeling (MLM) using paired drug-target data. (2) A semi-supervised training method that leverages large-scale unpaired molecules and proteins to enhance drug and target representations. This approach differs from previous methods that only employed molecules or proteins in pre-training. (3) The integration of a lightweight cross-attention module to improve the interaction between drugs and targets, further enhancing prediction accuracy. Through extensive experiments on benchmark datasets such as BindingDB, DAVIS, and KIBA, we demonstrate the superior performance of our framework. Additionally, we conduct case studies on specific drug-target binding activities, virtual screening experiments, drug feature visualizations, and real-world applications, all of which showcase the significant potential of our work. In conclusion, our proposed SSM-DTA framework addresses the data limitation challenge in DTA prediction and yields promising results, paving the way for more efficient and accurate drug discovery processes. Our code is available at $\href{https://github.com/QizhiPei/SSM-DTA}{Github}$.

arxiv情報

著者 Qizhi Pei,Lijun Wu,Jinhua Zhu,Yingce Xia,Shufang Xie,Tao Qin,Haiguang Liu,Tie-Yan Liu,Rui Yan
発行日 2023-10-17 14:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク