Removing Biases from Molecular Representations via Information Maximization

要約

ハイスループット薬物スクリーニング–薬効の読み出しとして細胞イメージングや遺伝子発現測定を用いる–は、バイオテクノロジーにおいて、薬物の化学構造と生物学的活性の関係を評価・理解するための重要なツールである。大規模なスクリーニングは複数の実験に分けなければならないため、データ中に系統誤差や非生物学的関連性をもたらす可能性のあるバッチ効果への対処が重要な課題となる。我々は、バッチ効果を効果的に処理し、洗練された分子表現を得るために、COnfounder REmovalのための情報最大化アプローチであるInfoCOREを提案する。InfoCOREは、バッチ識別子が与えられた場合の潜在的表現の条件付き相互情報に対する変分下界を確立する。InfoCOREは、サンプルの重み付けを適応的に再実行し、バッチ分布を均等化する。医薬品スクリーニングデータを用いた広範な実験により、分子特性予測や分子-表現型検索を含む多くのタスクにおいて、InfoCOREが優れた性能を発揮することが明らかになった。さらに、InfoCOREがどのように汎用的なフレームワークを提供し、スプリアス特徴との相関を最小化したり、敏感な属性を除去することによって、一般的な分布シフトやデータの公平性の問題を解決するかについての結果も示します。コードはhttps://github.com/uhlerlab/InfoCORE。

要約(オリジナル)

High-throughput drug screening — using cell imaging or gene expression measurements as readouts of drug effect — is a critical tool in biotechnology to assess and understand the relationship between the chemical structure and biological activity of a drug. Since large-scale screens have to be divided into multiple experiments, a key difficulty is dealing with batch effects, which can introduce systematic errors and non-biological associations in the data. We propose InfoCORE, an Information maximization approach for COnfounder REmoval, to effectively deal with batch effects and obtain refined molecular representations. InfoCORE establishes a variational lower bound on the conditional mutual information of the latent representations given a batch identifier. It adaptively reweighs samples to equalize their implied batch distribution. Extensive experiments on drug screening data reveal InfoCORE’s superior performance in a multitude of tasks including molecular property prediction and molecule-phenotype retrieval. Additionally, we show results for how InfoCORE offers a versatile framework and resolves general distribution shifts and issues of data fairness by minimizing correlation with spurious features or removing sensitive attributes. The code is available at https://github.com/uhlerlab/InfoCORE.

arxiv情報

著者 Chenyu Wang,Sharut Gupta,Caroline Uhler,Tommi Jaakkola
発行日 2023-12-01 16:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, q-bio.BM パーマリンク