Can virtual staining for high-throughput screening generalize?

要約

製薬業界におけるハイスループット スクリーニング (HTS) からの大量かつ多様なイメージング データは、仮想染色モデルをトレーニングするための優れたリソースとなります。
ただし、1 セットの実験条件下でトレーニングされたモデルを他の条件に一般化できる可能性は、まだ調査されていません。
この研究では、HTS で一般的に見られる 3 つの細胞型 (肺、卵巣、乳房) と 2 つの表現型 (毒性および非毒性条件) からのデータが仮想染色モデルを効果的にトレーニングして、3 つの典型的な HTS 分布シフト全体にわたって一般化できるかどうかを系統的に調査しています。
、目に見えない細胞タイプ、および両方の組み合わせ。
772,416 対の明視野、細胞質、核、および DNA 損傷染色画像のデータセットを利用して、ピクセルベース、インスタンスごと、および生物学的特徴ベースのレベルにわたるモデルの一般化機能を評価します。
私たちの発見は、非毒性状態のサンプルで仮想核および細胞質モデルをトレーニングすると、毒性状態のサンプルに一般化されるだけでなく、毒性状態のサンプルでのトレーニングと比較してすべての評価レベルにわたってパフォーマンスの向上につながることを示しています。
目に見えない細胞タイプに一般化すると、細胞タイプに応じたばらつきが示されます。
卵巣細胞または肺細胞サンプルでトレーニングされたモデルは、他の条件下では良好に機能することがよくありますが、乳房細胞サンプルでトレーニングされたモデルは一貫して一般化が不十分です。
目に見えない細胞タイプおよび表現型に対する一般化は、目に見えない細胞タイプのみに対処する場合と比較して、評価のすべてのレベルにわたって良好な一般化を示します。
この研究は、多様な HTS データセットでトレーニングされた仮想染色モデルの一般化機能に関する最初の大規模なデータ中心の分析を表し、実験的なトレーニング データ生成のための貴重な戦略を提供します。

要約(オリジナル)

The large volume and variety of imaging data from high-throughput screening (HTS) in the pharmaceutical industry present an excellent resource for training virtual staining models. However, the potential of models trained under one set of experimental conditions to generalize to other conditions remains underexplored. This study systematically investigates whether data from three cell types (lung, ovarian, and breast) and two phenotypes (toxic and non-toxic conditions) commonly found in HTS can effectively train virtual staining models to generalize across three typical HTS distribution shifts: unseen phenotypes, unseen cell types, and the combination of both. Utilizing a dataset of 772,416 paired bright-field, cytoplasm, nuclei, and DNA-damage stain images, we evaluate the generalization capabilities of models across pixel-based, instance-wise, and biological-feature-based levels. Our findings indicate that training virtual nuclei and cytoplasm models on non-toxic condition samples not only generalizes to toxic condition samples but leads to improved performance across all evaluation levels compared to training on toxic condition samples. Generalization to unseen cell types shows variability depending on the cell type; models trained on ovarian or lung cell samples often perform well under other conditions, while those trained on breast cell samples consistently show poor generalization. Generalization to unseen cell types and phenotypes shows good generalization across all levels of evaluation compared to addressing unseen cell types alone. This study represents the first large-scale, data-centric analysis of the generalization capability of virtual staining models trained on diverse HTS datasets, providing valuable strategies for experimental training data generation.

arxiv情報

著者 Samuel Tonks,Cuong Nguyer,Steve Hood,Ryan Musso,Ceridwen Hopely,Steve Titus,Minh Doan,Iain Styles,Alexander Krull
発行日 2024-07-09 15:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, q-bio.QM パーマリンク