要約
生物医学研究およびその他の分野では、マルチソースとマルチウェイの両方である高いコンテンツデータを生成することが一般的です。
マルチソースデータはさまざまなハイスループットテクノロジーから収集され、マルチウェイデータは複数の寸法で収集され、複数のテンソルアレイが生成されます。
これらのデータセットの統合分析は、例えば、複雑な生物学的システムのさまざまな側面をキャプチャして合成するために必要です。
ただし、マルチソースおよびマルチウェイ因数分解技術への関心が高まっているにもかかわらず、マルチソースとマルチウェイの両方のデータを処理できる方法は限られています。
この作業では、CandComp/Parafac(CP)分解を拡張する複数のリンクされたテンソル因子化(MultiFAC)メソッドを提案して、複数のマルチウェイアレイの次元と近似基本信号の次元を減少させます。
最初に、潜在因子にL2ペナルティを備えたCP因数分解のバージョンを導入し、ランクスパースにつながります。
複数のリンクされたテンソルに拡張されると、この方法は、各データソースにデータソースまたは個別に共有される潜在コンポーネントを自動的に明らかにします。
また、分解アルゴリズムをその期待最大化(EM)バージョンに拡張して、不完全なデータを代入して処理します。
マルチファックの能力を実証するために、広範なシミュレーション研究が実施され、(i)根本的な信号を近似し、(ii)共有構造と非共有構造を特定し、(iii)欠落データを帰属させる。
このアプローチは、初期の鉄欠乏に関する研究のために、マルチウェイマルチオミクスデータの解釈可能な分解をもたらします。
要約(オリジナル)
In biomedical research and other fields, it is now common to generate high content data that are both multi-source and multi-way. Multi-source data are collected from different high-throughput technologies while multi-way data are collected over multiple dimensions, yielding multiple tensor arrays. Integrative analysis of these data sets is needed, e.g., to capture and synthesize different facets of complex biological systems. However, despite growing interest in multi-source and multi-way factorization techniques, methods that can handle data that are both multi-source and multi-way are limited. In this work, we propose a Multiple Linked Tensors Factorization (MULTIFAC) method extending the CANDECOMP/PARAFAC (CP) decomposition to simultaneously reduce the dimension of multiple multi-way arrays and approximate underlying signal. We first introduce a version of the CP factorization with L2 penalties on the latent factors, leading to rank sparsity. When extended to multiple linked tensors, the method automatically reveals latent components that are shared across data sources or individual to each data source. We also extend the decomposition algorithm to its expectation-maximization (EM) version to handle incomplete data with imputation. Extensive simulation studies are conducted to demonstrate MULTIFAC’s ability to (i) approximate underlying signal, (ii) identify shared and unshared structures, and (iii) impute missing data. The approach yields an interpretable decomposition on multi-way multi-omics data for a study on early-life iron deficiency.
arxiv情報
著者 | Zhiyu Kang,Raghavendra B. Rao,Eric F. Lock |
発行日 | 2025-02-27 17:12:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google