Self-supervised learning of multi-omics embeddings in the low-label, high-data regime

要約

対照的自己教師あり学習 (SSL) を使用して、miRNA、mRNA、または RPPA 発現データからがんの種類を予測するモデルをトレーニングします。
このモデルは事前トレーニングされた FT-Transformer であり、ラベル付きサンプルが不足しているがラベルなしサンプルの数が多い場合、表形式データの標準ベンチマークである XGBoost および CatBoost よりも優れたパフォーマンスを示すことが示されています。
これは、使用するデータセットに $\mathcal{O}(10^{1})$ クラスと $\mathcal{O}(10^{2})-\mathcal{O}(10^{
4})$ の機能。
私たちが選択した自己教師あり事前トレーニング方法の有効性を実証した後、マルチモーダル モデルの SSL を調査します。
各オミクスが独自のサブネットワークを通過し、その出力が平均化されて事前トレーニングまたは下流の目的関数に渡される後期融合モデルが提案されています。
マルチモーダル事前トレーニングは、単一のオミクスからの予測を改善することが示されており、これはラベルのないマルチモーダル サンプルが多く含まれるが、ラベル付きのユニモーダル サンプルがほとんどないデータセットには有用であると主張します。
さらに、各オミックス固有のモジュールを個別に事前トレーニングすることが非常に効果的であることを示します。
これにより、各オミクスから大量の未標識データが得られるが、標識されたサンプルはわずかであるというさまざまな状況で、提案されたモデルを適用することが可能になります。

要約(オリジナル)

Contrastive, self-supervised learning (SSL) is used to train a model that predicts cancer type from miRNA, mRNA or RPPA expression data. This model, a pretrained FT-Transformer, is shown to outperform XGBoost and CatBoost, standard benchmarks for tabular data, when labelled samples are scarce but the number of unlabelled samples is high. This is despite the fact that the datasets we use have $\mathcal{O}(10^{1})$ classes and $\mathcal{O}(10^{2})-\mathcal{O}(10^{4})$ features. After demonstrating the efficacy of our chosen method of self-supervised pretraining, we investigate SSL for multi-modal models. A late-fusion model is proposed, where each omics is passed through its own sub-network, the outputs of which are averaged and passed to the pretraining or downstream objective function. Multi-modal pretraining is shown to improve predictions from a single omics, and we argue that this is useful for datasets with many unlabelled multi-modal samples, but few labelled unimodal samples. Additionally, we show that pretraining each omics-specific module individually is highly effective. This enables the application of the proposed model in a variety of contexts where a large amount of unlabelled data is available from each omics, but only a few labelled samples.

arxiv情報

著者 Christian John Hurry,Emma Slade
発行日 2023-11-16 15:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク