要約
多様ながんの研究を機械学習の問題としてとらえることは、近年、マルチオミクス解析やがん研究において大きな可能性を示している。このような成功した機械学習モデルを後押しするのは、十分なデータ量と適切な前処理を施した高品質のトレーニングデータセットである。しかし、The Cancer Genome Atlas(TCGA)のマルチオミクス・イニシアティブやLinkedOmicsのようなオープンベースなど、公開データポータルはいくつか存在するものの、これらのデータベースは既存の機械学習モデルにそのまま利用できるものではない。本論文では、バイオインフォマティクスと機械学習モデルの開発と評価に役立つことを目的として、オープンながんマルチオミクスベンチマークであるMLOmicsを提案する。MLOmicsには、4つのオミックスタイプ、層別化された特徴、および広範なベースラインを持つ、32のがん種すべてをカバーする8,314の患者サンプルが含まれている。また、学際的な解析をサポートするために、ダウンストリーム解析とバイオナレッジリンクのための補完的なサポートも含まれている。
要約(オリジナル)
Framing the investigation of diverse cancers as a machine learning problem has recently shown significant potential in multi-omics analysis and cancer research. Empowering these successful machine learning models are the high-quality training datasets with sufficient data volume and adequate preprocessing. However, while there exist several public data portals including The Cancer Genome Atlas (TCGA) multi-omics initiative or open-bases such as the LinkedOmics, these databases are not off-the-shelf for existing machine learning models. In this paper we propose MLOmics, an open cancer multi-omics benchmark aiming at serving better the development and evaluation of bioinformatics and machine learning models. MLOmics contains 8,314 patient samples covering all 32 cancer types with four omics types, stratified features, and extensive baselines. Complementary support for downstream analysis and bio-knowledge linking are also included to support interdisciplinary analysis.
arxiv情報
著者 | Ziwei Yang,Rikuto Kotoge,Xihao Piao,Zheng Chen,Lingwei Zhu,Peng Gao,Yasuko Matsubara,Yasushi Sakurai,Jimeng Sun |
発行日 | 2025-03-03 12:08:50+00:00 |
arxivサイト | arxiv_id(pdf) |