Otter-Knowledge: benchmarks of multimodal knowledge graph representation learning from different sources for drug discovery

要約

表現学習における最近の研究では、タンパク質や分子の大規模なデータベースを利用して、教師なし学習手法を通じて薬物やタンパク質の構造に関する知識を獲得しています。
これらの事前トレーニングされた表現は、薬物と標的タンパク質の間の親和性の予測など、その後のタスクの精度を大幅に向上させることが証明されています。
この研究では、さまざまなソースやモダリティからのナレッジ グラフをシーケンスまたは SMILES 表現に組み込むことで、表現をさらに強化し、確立されたベンチマーク データセットで最先端の結果を達成できることを実証します。
当社は、3,000 万を超えるトリプルを含む 7 つの公的ソースから取得した、前処理および統合されたデータを提供します。
さらに、このデータに基づいて事前トレーニングされたモデルと、Therapeutic Data Commons (TDC) ベンチマークで見つかった薬物標的結合親和性予測用に広く使用されている 3 つのベンチマーク データセットでのパフォーマンスの報告結果も提供します。
さらに、ベンチマーク データセットでのトレーニング モデルのソース コードも公開しています。
モデルの事前トレーニングとベンチマーク結果のクリーンなデータを伴うこれらの事前トレーニングされたモデルをリリースする目的は、知識強化表現学習の研究を促進することです。

要約(オリジナル)

Recent research in representation learning utilizes large databases of proteins or molecules to acquire knowledge of drug and protein structures through unsupervised learning techniques. These pre-trained representations have proven to significantly enhance the accuracy of subsequent tasks, such as predicting the affinity between drugs and target proteins. In this study, we demonstrate that by incorporating knowledge graphs from diverse sources and modalities into the sequences or SMILES representation, we can further enrich the representation and achieve state-of-the-art results on established benchmark datasets. We provide preprocessed and integrated data obtained from 7 public sources, which encompass over 30M triples. Additionally, we make available the pre-trained models based on this data, along with the reported outcomes of their performance on three widely-used benchmark datasets for drug-target binding affinity prediction found in the Therapeutic Data Commons (TDC) benchmarks. Additionally, we make the source code for training models on benchmark datasets publicly available. Our objective in releasing these pre-trained models, accompanied by clean data for model pretraining and benchmark results, is to encourage research in knowledge-enhanced representation learning.

arxiv情報

著者 Hoang Thanh Lam,Marco Luca Sbodio,Marcos Martínez Gallindo,Mykhaylo Zayats,Raúl Fernández-Díaz,Víctor Valls,Gabriele Picco,Cesar Berrospi Ramis,Vanessa López
発行日 2023-06-22 11:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク