CLDR: Contrastive Learning Drug Response Models from Natural Language Supervision

要約

深層学習ベースの薬剤反応予測 (DRP) 手法は、創薬プロセスを加速し、研究開発コストを削減できます。
主流の手法は応答回帰値の予測において高い精度を達成していますが、これらの手法の回帰を考慮した表現は断片化されており、サンプル順序の連続性を捉えることができません。
この現象により、モデルが次善の解空間に最適化されることになり、汎化能力が低下し、創薬段階で大幅なコストの無駄が発生する可能性があります。
この論文では、DRP のための自然言語監視を備えた対照学習フレームワークである \MN を提案します。
\MN~ は回帰ラベルをテキストに変換します。これは、従来のモダリティ (グラフ、シーケンス) と比較したサンプルの 2 番目のモダリティとして薬物反応のキャプション テキストとマージされます。
各バッチでは、1 つのサンプルの 2 つのモダリティがポジティブ ペアとみなされ、他のペアはネガティブ ペアとみなされます。
同時に数値テキストの連続表現能力を高めるために、常識的な数値知識グラフを導入した。
私たちは、がんにおける薬剤感受性のゲノミクス データセットから数十万のサンプルを検証し、フレームワークを適用した場合の DRP 法の平均改善率が 7.8\% から 31.4\% の範囲であることを観察しました。
実験では、\MN~ がサンプルを表現空間内の連続分布に効果的に制限し、事前トレーニング後のわずか数エポックの微調整で優れた予測パフォーマンスを達成することを証明しています。
コードは \url{https://gitee.com/xiaoyibang/clipdrug.git} から入手できます。

要約(オリジナル)

Deep learning-based drug response prediction (DRP) methods can accelerate the drug discovery process and reduce R\&D costs. Although the mainstream methods achieve high accuracy in predicting response regression values, the regression-aware representations of these methods are fragmented and fail to capture the continuity of the sample order. This phenomenon leads to models optimized to sub-optimal solution spaces, reducing generalization ability and may result in significant wasted costs in the drug discovery phase. In this paper, we propose \MN, a contrastive learning framework with natural language supervision for the DRP. The \MN~converts regression labels into text, which is merged with the captions text of the drug response as a second modality of the samples compared to the traditional modalities (graph, sequence). In each batch, two modalities of one sample are considered positive pairs and the other pairs are considered negative pairs. At the same time, in order to enhance the continuous representation capability of the numerical text, a common-sense numerical knowledge graph is introduced. We validated several hundred thousand samples from the Genomics of Drug Sensitivity in Cancer dataset, observing the average improvement of the DRP method ranges from 7.8\% to 31.4\% with the application of our framework. The experiments prove that the \MN~effectively constrains the samples to a continuous distribution in the representation space, and achieves impressive prediction performance with only a few epochs of fine-tuning after pre-training. The code is available at: \url{https://gitee.com/xiaoyibang/clipdrug.git}.

arxiv情報

著者 Kun Li,Wenbin Hu
発行日 2023-12-17 12:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM, q-bio.MN パーマリンク