A large dataset curation and benchmark for drug target interaction

要約

生物活性データは、創薬と再利用において重要な役割を果たします。
\textit{in vitro} および \textit{in vivo} 実験のリソースを必要とする性質、およびデータ駆動型計算生化学研究の最近の進歩は、\textit{in silico} 薬物標的相互作用 (DTI) の重要性を浮き彫りにしています。
)予測アプローチ。
大規模な公的生物活性データソースが多数存在する一方で、この分野の研究は既存のデータリソースの標準化を改善することで恩恵を受ける可能性があります。
現時点では、データソースの選択やトレーニング/検証/テストの分割戦略が異なるため、同様の目標を共有するさまざまな研究成果を適切に比較することが難しいことがよくあります。
さらに、多くの研究は小さなデータのサブセットに基づいており、有効性が限られた可能性のある結果と洞察につながります。
この論文では、複数の公的ソースから厳選された非常に大規模なデータセットを標準化して効率的に表現し、意味のあるさまざまな戦略に基づいてデータをトレーニング、検証、テストセットに分割し、ベンチマークを達成するための具体的な評価プロトコルを提供する方法を提案します。
私たちは、提案されたデータキュレーションを分析し、その有用性を証明し、既存のニューラルネットワークモデルに基づく実験研究を通じて提案されたベンチマークを検証します。

要約(オリジナル)

Bioactivity data plays a key role in drug discovery and repurposing. The resource-demanding nature of \textit{in vitro} and \textit{in vivo} experiments, as well as the recent advances in data-driven computational biochemistry research, highlight the importance of \textit{in silico} drug target interaction (DTI) prediction approaches. While numerous large public bioactivity data sources exist, research in the field could benefit from better standardization of existing data resources. At present, different research works that share similar goals are often difficult to compare properly because of different choices of data sources and train/validation/test split strategies. Additionally, many works are based on small data subsets, leading to results and insights of possible limited validity. In this paper we propose a way to standardize and represent efficiently a very large dataset curated from multiple public sources, split the data into train, validation and test sets based on different meaningful strategies, and provide a concrete evaluation protocol to accomplish a benchmark. We analyze the proposed data curation, prove its usefulness and validate the proposed benchmark through experimental studies based on an existing neural network model.

arxiv情報

著者 Alex Golts,Vadim Ratner,Yoel Shoshan,Moshe Raboh,Sagi Polaczek,Michal Ozery-Flato,Daniel Shats,Liam Hazan,Sivan Ravid,Efrat Hexter
発行日 2024-01-30 17:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM パーマリンク