Improving generalization of machine learning-identified biomarkers with causal modeling: an investigation into immune receptor diagnostics


– 高次元分子データから診断や予後のバイオマーカーを見つけるために、機械学習がますます使われるようになっている。
– ただし、実験設計に関連する様々な要因が、一般化可能で臨床的に適用可能な診断学習を学ぶ能力に影響を与える可能性がある。
– ここで、因果的な観点から、これらの課題の特定と機械学習に基づく診断の強さと汎化性に関する関係を形式化することができると主張する。
– 具体的には、高次元バイオマーカーである適応免疫受容体レパートリー(AIRR)に焦点を当てた。
– シミュレーションを通じて、AIRRドメインの主要な生物学的および実験的要因が、学習されたバイオマーカーに影響を与える方法を説明する。
– 結論として、因果モデリングは、変数間の安定した関係を特定することにより、および集団間に変動する関係や変数を調整することにより、機械学習に基づくバイオマーカーの堅牢性を改善すると主張する。


Machine learning is increasingly used to discover diagnostic and prognostic biomarkers from high-dimensional molecular data. However, a variety of factors related to experimental design may affect the ability to learn generalizable and clinically applicable diagnostics. Here, we argue that a causal perspective improves the identification of these challenges and formalizes their relation to the robustness and generalization of machine learning-based diagnostics. To make for a concrete discussion, we focus on a specific, recently established high-dimensional biomarker – adaptive immune receptor repertoires (AIRRs). Through simulations, we illustrate how major biological and experimental factors of the AIRR domain may influence the learned biomarkers. In conclusion, we argue that causal modeling improves machine learning-based biomarker robustness by identifying stable relations between variables and by guiding the adjustment of the relations and variables that vary between populations.


著者 Milena Pavlović,Ghadi S. Al Hajj,Chakravarthi Kanduri,Johan Pensar,Mollie Wood,Ludvig M. Sollid,Victor Greiff,Geir Kjetil Sandve
発行日 2023-04-03 09:03:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, q-bio.QM パーマリンク