Weakly supervised cross-model learning in high-content screening

要約

さまざまなモダリティから利用可能なデータが急増しているため、異なるデータ タイプ間のギャップを埋める必要性が高まっています。
この研究では、創薬のために画像データと分子表現の間のクロスモーダル表現を学習するための新しいアプローチを紹介します。
私たちは、EMM と IMM を提案します。これは、CLIP 上に構築された 2 つの革新的な損失関数であり、ハイコンテンツ スクリーニングでの弱い監視とクロスサイト レプリケーションを活用します。
クロスモーダル検索の既知のベースラインに対してモデルを評価すると、提案したアプローチにより、より良い表現を学習し、バッチ効果を軽減できることがわかります。
さらに、すべての摂動とほとんどの情報コンテンツを保持しながら、必要なスペースを 85Tb から単なる使用可能な 7Tb サイズに効果的に削減する、JUMP-CP データセットの前処理方法も紹介します。

要約(オリジナル)

With the surge in available data from various modalities, there is a growing need to bridge the gap between different data types. In this work, we introduce a novel approach to learn cross-modal representations between image data and molecular representations for drug discovery. We propose EMM and IMM, two innovative loss functions built on top of CLIP that leverage weak supervision and cross sites replicates in High-Content Screening. Evaluating our model against known baseline on cross-modal retrieval, we show that our proposed approach allows to learn better representations and mitigate batch effect. In addition, we also present a preprocessing method for the JUMP-CP dataset that effectively reduce the required space from 85Tb to a mere usable 7Tb size, still retaining all perturbations and most of the information content.

arxiv情報

著者 Watkinson Gabriel,Cohen Ethan,Bourriez Nicolas,Bendidi Ihab,Bollot Guillaume,Genovesio Auguste
発行日 2023-11-08 13:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.QM パーマリンク