要約
ハイ コンテンツ イメージング (HCI) は、最新の創薬および開発パイプラインにおいて重要な役割を果たしており、ヒットの特定から候補薬の特性評価までのさまざまな段階を促進します。
これらのデータセットは通常複数のバッチで構成されており、特に異なる画像機器が使用されている場合は実験の変動の影響を受けるため、これらのデータセットに機械学習モデルを適用することは困難であることが判明する可能性があります。
さらに、新しいデータが到着すると、それらをオンライン形式で分析することが好ましい。
これを克服するために、オンラインの自己監視型ドメイン適応アプローチである CODA を提案します。
CODA は、分類器の役割を一般的な特徴抽出器とタスク固有のモデルに分割します。
タスク固有のモデルを変更せずに、クロスバッチ自己監視を使用して特徴抽出器の重みを新しいドメインに適応させます。
私たちの結果は、この戦略が汎化ギャップを大幅に削減し、異なる顕微鏡を使用する異なる研究室からのデータに適用すると最大 300% の改善が達成されることを示しています。
CODA は、単一のプレートから複数の実験バッチまで、さまざまなサイズのラベルのない新しいドメイン外データ ソースに適用できます。
要約(オリジナル)
High Content Imaging (HCI) plays a vital role in modern drug discovery and development pipelines, facilitating various stages from hit identification to candidate drug characterization. Applying machine learning models to these datasets can prove challenging as they typically consist of multiple batches, affected by experimental variation, especially if different imaging equipment have been used. Moreover, as new data arrive, it is preferable that they are analyzed in an online fashion. To overcome this, we propose CODA, an online self-supervised domain adaptation approach. CODA divides the classifier’s role into a generic feature extractor and a task-specific model. We adapt the feature extractor’s weights to the new domain using cross-batch self-supervision while keeping the task-specific model unchanged. Our results demonstrate that this strategy significantly reduces the generalization gap, achieving up to a 300% improvement when applied to data from different labs utilizing different microscopes. CODA can be applied to new, unlabeled out-of-domain data sources of different sizes, from a single plate to multiple experimental batches.
arxiv情報
著者 | Johan Fredin Haslum,Christos Matsoukas,Karl-Johan Leuchowius,Kevin Smith |
発行日 | 2023-11-21 14:16:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google